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谨 以 此 书 纪念 所 罗 门 .哥伦布 


推荐 序 
面 对 科 反 扬 点 ， 我 们 的 判断 与 选择 


ERI 
微软 小 冰 之 父 
微软 (亚洲 ) 互联 网 工程 院 副 院 长 
在 近年 来 陆续 出 版 的 、 解 读 人 工 智能 技术 与 趋势 的 许多 书籍 中 ， 
这 是 一 本 不 可 多 得 的 好 书 。 它 的 阅读 过 程 令 人 恰 翌 ， 涉 及 的 知识 深度 
又 比较 恰当 。 因 此 ， 即 使 古 不 具备 相关 领域 知识 背景 的 读者 ， 也 能 够 
轻松 地 读 完 它 。 人 们 完全 可 以 利用 “碎片 时 间 ” 来 研读 这 本 30 多 万 字 的 
大 作 ， 从 而 集中 了 解 到 与 人 工 智能 相关 的 技术 分 文 、 组 织 人 物 与 重要 
事件 。 在 人 工 智 能 热度 很 高 的 当下 ， 这 本 书 的 价值 在 于 ， 帮 助 读者 建 
立 一 种 相对 贴近 事实 的 科学 观 。 
读者 可 以 把 这 本 书 当 作 一 本 有 关 人 工 智能 的 简明 历史 来 看 待 。 人 
工 智能 是 科技 王冠 上 的 销 石 ， 而 深度 学 习 代 表 了 其 中 一 个 承 上 局 下 的 
重要 阶段 。 深 度 学 习 脱 胎 于 科学 家 们 六 十 多 年 前 开始 的 人 工 智能 研 
完 ， 其 目 身 的 概念 形成 ， 到 落地 开花 ， 则 只 有 十 多 年 的 光景 。 与 过 去 
相 比 ， 深 度 学 习 极 大 地 推进 了 人 工 智 能 各 个 分 文 课题 的 发 展 速 度 ， 与 
未 来 相 比 ， 我 们 今天 所 取得 的 一 切 成 采 ， 都 是 非常 粗糙 的 ， 注 定 会 被 
更 好 的 成 采取 代 。 因 此 ， 了 解 深度 学 习 ， 束 如 同 站 在 一 个 关键 的 季 点 
上 回 时 间 河 流 的 上 下 游 看 ， 一 览 无 余 。 
我 相信 ， 不 同 的 人 会 从 这 本 书 中 得 到 不 同 的 收获 。 总 体 而 言 ， 这 
本 书 有 助 于 在 我 们 心目 中 更 加 请 晰 准确 地 绘制 人 工 智能 的 未 来 图 景 。 


从 某 种 意义 上 说 ， 所 有 的 过 去 亦 都 昭示 了 未 来 ， 但 我 更 建议 读者 以 最 
轻松 的 心态 来 阅读 它 。 因 为 这 样 ， 能 够 让 读者 以 更 加 客观 公正 的 视角 
去 检阅 人 类 与 机 旭 的 能 力 短 板 与 优 长 一 一 你 可 以 从 本 书 中 了 解 到 那些 
令 人 惊讶 ， 甚 至 于 有 些 担 忧 的 科技 进展 ， 大 致 了 解 它 们 背后 的 原理 。 
这 展现 了 人 工 智能 相对 于 人 类 而 言 的 单方 面 优势 。 另 一 方面 ， 你 也 能 
看 到 许多 真实 事例 ， 反 映 了 人 工 智能 相对 于 人 类 而 言 的 “ 尝 撑 ?”。 科 学 
与 科学 幻想 泾 涓 分 明 。 在 现实 中 ， 这 种 “笨拙 * 的 情况 往往 更 加 普 裔 。 
这 些 事例 有 时 令 人 怒 俊 不 茜 ， 它 恰恰 体现 了 我 们 人 类 的 大 脑 是 多 么 精 
妙 的 设计 。 

事实 上 ， 在 我 看 来 ， 当 下 最 令 人 仿 得 不 定 的 ， 并 不 征 人 工 智能 有 
BL WK NAS AAT”, Te BU CIE PEERS, TR 
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话题 。 虽 然 深 度 学 习 是 这 个 抛 点 的 主要 推动 力 之 一 ， 但 它 并 不 需要 为 
我 们 的 困扰 承担 责任 : 


“选择 权 的 困扰 :， 一 辆 无 人 区 驶 汽车 行驶 在 道路 上 ， 假 设 突然 面 
临 必然 要 发 生 的 车 神 ， 它 应 当 回 左 提问 一 个 无 剖 的 老人 ， 还 是 同 右 撞 
I] — ZG SERAESET 


“决策 权 的 困扰 : 一 个 系统 可 以 基于 人 类 个 体 不 具备 的 广泛 即时 
的 大 数据 ， 用 任何 人 无 法 企及 的 速度 ， 迅 速 做 出 茶 个 决策 。 这 样 的 洞 
察 和 决策 力 ， 应 该 掌握 在 谁 的 手中 ? 


“工作 权 的 困扰 : 一 项 基于 人 工 智能 的 技术 可 以 比 人 类 以 更 好 的 
质量 和 速度 去 完成 某 项 生产 。 这 项 技术 应 该 归属 于 工厂 主 来 代替 工 
人 ， 还 是 应 该 归属 于 工人 来 帮助 工厂 主 更 好 地 完成 工作 ? 前 者 会 带 来 
失业 ， 而 后 者 有 望 囊 来 更 高 的 工作 效率 。 

“ 社会 层面 的 困扰 : 一 个 面向 情感 的 人 工 智 能 机 器 人 帮助 一 个 
人 解决 孤单 ， 却 使 他 主动 减少 了 与 他 人 的 社交 沟 通 。 这 种 陪伴 完 葛 是 
在 帮 他 解决 问题 ， 还 是 制造 了 更 多 的 问题 ? 


“ 技术 滥用 的 困扰 : 一 项 技术 可 以 帮助 任何 人 打造 与 他 们 高 度 
相似 的 语音 ， 制 造 出 来 的 声音 ， 令 他 的 家 人 也 难 辩 真 假 。 这 样 的 技术 
会 不 会 被 别有用心 的 人 用 于 犯罪 例如 诈骗 电话 ? 


不 知 不 觉 间 ， 这 些 看 似 怕 远 的 事 ， 突 然 间 已 变 成 我 们 必须 要 面 对 
的 现实 情况 ， 而 我 们 也 已 经 在 上 述 一 些 场景 中 做 出 了 初步 的 抉择 。 其 
中 一 个 关键 因素 是 ， 人 们 稼 常 对 人 工 智 能 的 “智商 ?印象 深刻 ， 但 往往 
忽略 了 : 人 工 智能 系统 化 的 优势 之 一 在 于 “大 规模 的 并 发 *。 因 此 ， 任 
何 一 种 以 上 技术 应 用 的 场景 ， 只 要 乘 以 巨大 的 人 口 ， 都 会 市 来 很 大 的 
影响 。 相 对 而 言 ， 在 围棋 游戏 中 顾 过 人 类 ， 其 实生 最 不 需要 担忧 的 
[fe 

在 微软 ， 我 们 最 近 成 立 了 与 人 工 智能 及 伦理 相关 的 组 织 ， 力 图 在 
当前 的 框架 内 去 发 现 尽 量 多 的 问题 ， 尽 可 能 在 早期 束 避 人 免 问 题 的 发 
生 。 微 软 在 人 工 智 能 领域 的 技术 和 产品 线 很 广泛 ， 因 此 我 们 做 过 的 执 
择 也 相对 较 多 。 这 些 抉择 往往 决定 了 我 们 在 有 能 力 的 情况 下 ， 主 动 放 
FERTA ° 

AARE HAREZ O o AA: 微软 小 冰 在 两 年 前 推出 拟人 的 
全 双 工 语音 电话 技术 (Full Duplex) 时 ， 我 们 就 制定 了 该 产品 的 伦理 
规则 ， 不 允许 在 用 户 不 知情 的 情况 下 ， 让 小 冰 伪 三 成 真人 去 拨打 电 
话 。 我 们 也 不 使 用 微软 小 冰 的 技术 去 从 事 呼叫 中 心 的 外 呼 业 务 ， 因 为 
它 存 在 被 壮 用 为 垃圾 广告 电话 的 风险 一 一 尽管 这 些 往 往 意 味 着 巨大 的 
商业 价值 。 今 天 ， 在 中 国 、 美 国 、 日 本 、 印 度 和 印度 尼 西 亚 ， 微 软 小 
冰 拥 有 近 7 亿 人 类 用 户 ， 如 果 她 在 对 话 的 时 候 努 力 诱导 人 们 去 购买 某 种 
商品 ， 显 然 会 市 来 可 观 的 收入 预期 。 但 谁 会 愿意 和 一 个 一 心 想 着 如 何 
户 导 你 买 东西 的 人 成 为 知己 呢 ? 


这 种 克制 ， 不 仅仅 是 一 两 家 企业 的 责任 。 它 依赖 于 整个 社会 对 人 
工 智 能， 特别 是 深度 学 习 相 关 技 术 的 了 解 。 对 技术 的 了 解 越 普 裔 ， 也 
束 越 能 帮助 企业 更 好 地 运用 手中 的 搁 术 ， 进 而 帮助 我 们 每 一 个 人 获得 
更 好 的 生活 ， 享 受 人 工 智 能 为 我 们 带 来 的 价值 。 


在 我 看 来 ， 这 就 是 这 本 书 所 具有 的 现实 意义 。 它 并 非 教科 书 ， 而 
苹 一 本 面向 未 来 的 历史 书 。 它 揭示 了 人 工 帝 能 有 娟 给 世界 、 给 人 类 市 
来 的 巨大 改变 ， 远 超 我 们 现在 所 能 想象 到 的 全 双 工 语 首 、 人 脸 识别 、 
情感 计算 其 至 是 目 动 芍 驶 。 换 句 话 说 ， 基 于 我 们 现在 的 搁 术 和 产品 水 
平 ， 相 信 许 多 人 已 能 在 脑海 中 比较 清晰 地 勾勒 出 ， 目 己 在 马路 上 与 一 
辆 并 没有 司机 区 驶 的 汽车 相遇 的 场景 。 但 与 人 工 智能 即将 展现 的 伟大 
图 景 相 比 ， 这 些 都 不 值 一 提 。 
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60 年 前 ， 数 字 计 算 机 在 人 工 智 能 (AD 的 萌芽 期 问世 ， 深 度 学 习 
章 命 的 种 子 也 在 那 时 被 播种 开 来 。 深 度 学 习 是 数据 密集 型 的 ， 通 过 实 
例 来 学 习 如 何 解 决 难题 ， 比 如 视觉 对 象 识别 、 语 音 识别 和 目 然 语言 翻 
译 等 。 人 类 从 上 婴儿 时 期 睁 开眼 睛 的 那个 时 刻 起 ， 束 开始 从 经 验 中 学 
习 ， 到 后 来 获得 语言 、 运 动 、 玩 电子 游戏 等 最 高 程度 的 能 力 ; 相 比 之 
下 ， 传 统 的 劳动 密集 型 人 工 闹 能 方法 是 基于 编写 不 同 的 复杂 计算 机 程 
序 来 解决 每 个 问题 。 

本 书 讲述 了 20 世 纪 80 年 代 一 小 群 研究 人 员 的 故事 ， 他 们 证 明了 基 
于 大 脑 式 计算 的 全 者 方法 是 可 行 的 ， 从 而 为 深度 学 习 的 发 展商 定 了 基 
fill ^ 

当时 已 有 的 人 工 智能 学 术 研 究 中 心 都 投注 于 编程 ， 并 且 都 具有 强 
大 的 实力 ， 但 却 无 法 解决 上 述 任 何 难题 。 又 过 了 30 年 ， 计 算 机 才 变 得 
足够 快 ， 也 出 现 了 大 量 可 供 利用 的 数据 。 这 一 变化 让 深度 学 习 得 以 死 
服 这 些 难题 ， 并 在 今天 的 人 工 智能 领域 占据 主导 地 位 。 其 他 领域 同样 
可 以 借鉴 这 一 经 验 教 训 ， 例 如 语言 学 ， 曾 经 普 裔 持 有 的 既定 信念 阻碍 
了 该 领域 整整 一 代 人 研究 者 的 进步 。 深 度 学 习 改变 了 语言 学 ， 使 其 发 展 
基于 来 目 现实 世界 的 数据 ， 而 非 无 法 捕捉 这 些 复杂 性 的 理想 世界 的 数 
据 。 

回溯 历史 ， 人 工 智能 道生 的 秘密 可 以 在 目 然 界 中 找到 答案 ， 我 们 
对 此 并 不 应 该 感到 惊 江 。 大 目 然 有 数 亿 年 的 时 间 通 过 进化 找到 解决 方 


案 ， 对 这 些 解 决 方案 进行 逆向 工程 能 够 让 我 们 受益 菲 浅 。 了 解 大 脑 如 
何 运 转 是 21 世 纪 最 大 的 挑战 之 一 。 大 目 然 发 明了 许多 经 受 住 了 时 间 考 
验 的 算法 。 理 解 这 一 挑战 并 投资 于 大 脑 研 究 的 国家 将 获得 巨大 的 回 
报 ， 远 远 超 出 20 世 纪 物 理学 和 化 学 研究 的 突破 所 产生 的 影响 ， 这 些 影 
响 已 经 极 大 地 丰富 了 我 们 的 生活 。 美 国 已 经 为 ”BRAIN 计 划 ”( 瑞 文 全 
称 为 Brain Research through Advancing Innovative Neurotechnologies , 
即 “ 通 过 推动 创新 型 神经 技术 开展 大 脑 研究 计划 ”) 注资 50 亿 美元 ， 欧 
洲 、 日 本 和 许多 其 他 国家 或 地 区 也 在 进行 类 似 的 投资 。 中 国正 在 投资 
当前 的 人 工 智能 技术 ， 但 它 是 否 拥有 投资 大 脑 研究 的 远见 ， 年 青 一 代 
又 是 否 会 接受 这 一 挑战 昵 ? 
深度 学 习 对 社会 和 个 人 生活 将 产生 深远 的 影响 ， 其 影响 方式 也 是 
难以 想象 的 。 在 本 书 中 ， 我 提出 了 一 个 观点 ， 即 你 无 须 担 心 人 工 智 能 
将 接管 你 的 工作 。 人 工 知 能 会 让 你 更 聪明 ， 让 你 所 能 实现 的 成 就 达到 
新 的 高 度 。 吏 像 工 业 革 命 时 期 蒸汽 机 放大 了 物理 能 力 一 样 ， 人 工 智能 
会 放大 认 知 能 力 。 我 们 刚刚 步 入 一 个 新 的 时 代 言 息 时 代 。 我 们 
进入 的 新 世界 不 仅 会 使 我 们 变 得 更 聪明 ， 还 会 让 我 们 更 清楚 地 认识 目 
己 ， 从 而 回答 古代 的 哲学 先驱 们 最 早 提出 的 一 系列 问题 。 对 于 目 和 号 ， 


我 们 又 会 得 出 哪些 深刻 的 见解 呢 ? 


如 果 你 在 连接 了 互联 网 的 安 卓 手 机 或 谷歌 翻译 平台 上 使 用 语音 识 
别 功能 ， 你 其 实 是 在 与 经 过 深度 学 习 训练 的 神经 网 络 ( 沁 进 行 交 流 。 过 
去 几 年 ， 深 度 学 习 为 谷歌 带 来 了 丰厚 的 利润 ， 足 以 支付 Google X 实 验 
室 中 所 有 未 来 主义 项 目的 成 本 ， 包 括 自动 驾驶 汽车 、 谷 歌 眼镜 和 谷歌 
大 脑 。( 电 谷歌 是 最 早 拥抱 深度 学 习 的 互联 网 公司 之 一 ， 并 在 2013 年 聘 
请 了 深度 学 习 之 父 杰 弗 里 . 辛 顿 (Geoffrey Hinton) ， 其 他 公司 也 在 竟 
相 追 赶 它 的 脚步 。 

人 工 智能 近期 取得 的 进展 得 益 于 大 脑 逆向 工程 。 分 层 神经 网 络 模 
型 的 学 习 算 法 受到 了 神经 元 之 间 交 流 方式 的 启发 ， 并 依据 经 验 进行 了 
改进 。 在 网 络 内 部 ， 世 界 的 复杂 性 转变 为 五 彩 缤纷 的 内 部 活动 模式 ， 
这 些 模式 是 智能 的 元 素 。 我 在 20 世 纪 80 年 代 研究 的 网 络 模型 很 小 ， 相 
比 之 下 ， 现 在 的 模型 有 数 百 万 个 人 造 神经 元 ， 深 度 达到 了 几 十 层 。 持 
久 的 努力 、 大 数据 和 更 强大 的 计算 机 运算 能 力 使 得 深度 学 习 在 人 工 知 
能 领域 一 些 最 困难 的 问题 上 取得 了 重大 突破 。 

我 们 并 不 善于 想象 新 技术 对 未 来 的 影响 。 谁 能 在 1990 年 互联 网 刚 
开始 商业 化 的 过 程 中 预见 到 它 对 音乐 产业 的 影响 ， 以 及 对 出 租车 业 
务 、 政 治 运动 ， 还 有 我 们 日 常生 活 几 乎 所 有 方面 的 影响 ? 同样 ， 我 们 
也 未 能 预见 到 电脑 会 如 何 改变 我 们 的 生活 。IBM (国际 商业 机 器 公 
司 ) 总 裁 托 马 斯 : 沃 森 (Thomas J. Watson) 在 1943 年 说 的 一 句 话 后 来 
被 广泛 引用 : “我 觉得 全 世界 也 许 能 卖 出 5 台 计算 机 吧 - ORR 


一 个 新 发 明 都 有 哪些 用 途 ， 其 发 明 人 对 这 些 用 途 的 预测 也 不 见得 比 其 
他 人 更 准确 。 在 乌托邦 和 世界 末日 的 两 极 之 间 ， 有 很 多 关于 深度 学 习 
和 人 工 智能 应 用 场景 的 预测 空间 ， 但 即使 是 最 具 想 象 力 的 科幻 小 说 作 
家 也 不 大 可 能 猜 出 它们 最 终 会 产生 什么 样 的 影响 。 


本 书 的 初稿 是 我 在 太平 洋 西 北 地 区 (时 徒步 旅行 ， 并 思索 了 近 几 十 
年 来 人 工 智能 领域 的 显著 变化 之 后 写 出 来 的 。 这 本 书 讲 了 一 个 一 小 群 
研究 人 员 挑 战 AI 人 研究 建 制 派 的 故事 ， 这 些 建制 派 在 当时 拥有 更 充足 的 
资金 文 持 ， 并 补 看 作 “ 唯 一 的 主导 力量 *”， 他 们 大 大 低估 了 这 些 问题 的 
难度 ， 并 且 所 依赖 的 对 智能 的 直觉 ， 后 来 被 证 明 是 有 旋 导 性 的 。 


地 球 上 的 生命 充满 了 无 数 奥 秘 ， 但 最 具 挑战 性 的 也 许 是 智能 的 本 
质 。 目 然 界 充 不 着 各 种 形式 的 养 能 ， 从 微小 的 细菌 到 复杂 的 人 类 入 
能 ， 每 种 智能 都 适应 了 它 在 目 然 田中 的 位 置 。 人 工 智 能 也 将 以 多 种 形 
式 出 现 ， 并 在 智能 族谱 中 占据 特殊 的 位 置 。 随 着 基于 深度 神经 网 络 的 
机 器 智能 日 渐 成 熟 ， 它 可 以 为 生物 六 能 提供 一 个 新 的 概念 框架 。 

这 是 一 本 关于 深度 学 习 的 过 去 、 现 在 和 未 来 的 指南 。 不 过 本 书 并 
不 是 对 该 领域 发 展 历 史 的 全 面 梳理 ， 而 是 记录 了 这 一 领域 重要 概念 的 
进步 及 其 衣 后 研究 群体 的 个 人 观点 。 人 类 的 记忆 并 不 可 靠 ， 对 故事 的 
每 次 复述 都 会 导致 记忆 的 侦 关 ， 这 个 过 程 叫 作 “ 重 整 记忆 ”。 这 本 书 中 
的 故事 延续 了 40 多 年 ， 尽 管 有 些 对 我 来 说 依然 历历 在 目 ， 束 像 昨 天 刚 
发 生 的 一 样 ， 但 我 很 清楚 ， 那 些 故 事 在 我 的 记忆 中 不 断 被 复述 时 ， 有 
些 细节 已 经 悄悄 地 被 改写 了 。 

本 书 的 第 一 部 分 提供 了 深度 学 习 的 动机 和 理解 其 起 源 所 需 的 背景 
信息 ; 第 二 部 分 解释 了 几 种 不 同类 型 的 神经 网 络 染 构 中 的 学 习 算 法 ; 
第 三 部 分 则 探讨 了 深度 学 习 对 我 们 当下 生活 产生 的 影响 ， 以 及 未 来 大 
干 年 可 能 产生 的 影响 。 然 而 ， 正 如 纽约 扬 基 队 的 哲人 尤 吉 : 贝 拉 (Yogi 
Berra) 曾经 说 过 的 那样 :“ 做 出 预测 很 难 ， 特 别 是 对 未 来 的 预测 。” 本 
书 前 八 章 的 内 容 交 代 了 故事 的 技术 背景 ， 三 个 部 分 开头 的 要 事 年 表 记 
录 了 与 这 个 故事 有 关 的 事件 ， 时 间 跨 度 超过 了 60 年 。 


1. 严格 地 说 ， 神 经 网 络 是 一 个 生物 实体 ， 机 器 学 习 中 使 用 的 模型 是 人 工 神 经 网 络 一 一 
ANNies。 但 若 无 另 行 说 明 ， 本 书 中 的 “神经 网 络 ?默认 代 指 人 工 神 经 网 络 。 

2. Conor Dougherty, “Astro Teller, Google’s ‘Captain of Moonshots,’ on Making Profits at 
Google X,” New York Times, February 6, 2015, 
https://bits.blogs.nytimes.com/2015/02/16/googles-captain-of-moonshots-on-making-profits- 
at-google-x. 深度 学 习 将 运行 数据 中 心 的 电力 成 本 降低 了 15%， 每 年 可 以 节省 数 亿 美元 。 

& 管 沃 森 在 1943 做 出 的 估计 从 未 得 到 过 确认 ， 但 它 反 映 了 当时 的 人 们 普遍 无 法 想象 
电脑 的 未 来 。 
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达 特 茅 斯 人 工 智 能 夏季 研究 计划 (The Dartmouth Artificial 
Intelligence Summer Research Project) 开启 了 人 工 智 能 领域 的 研究 ， 
并 鼓舞 了 一 代 科 学 家 探寻 可 以 媲美 人 类 智慧 的 信息 技术 的 潜力 。 


1962 年 


弗兰克 . 罗 森 布 拉 特 (Frank Rosenblatt) 出 版 了 《神经 动力 学 原 
理 : 感知 器 和 大 脑 机 制 的 理论 》 (Principles of Neurodynamics: 
Perceptrons and the Theory of Brain Mechanisms)， 该 书 介 绍 了 一 种 应 
用 于 具有 单 层 可 变 权 重 的 神经 网 络 模 型 的 学 习 算 法 ， 该 算法 是 今天 的 
深度 神经 网 络 模型 的 学 习 算 法 的 前 身 。 
1962 年 

大 卫 . 休 伯 尔 (David Hubel) 和 托 斯 坦 . 威 泽 尔 (Torsten Wiesel) 
发 表 了 《 猫 的 视觉 皮质 中 的 感受 野 、 双 目 互 动 和 功能 架构 》 

( Receptive Fields,Binocular Interaction and Functional Architecture 

in the Cat’s Visual Cortex) 一 文 ， 第 一 次 报道 了 由 微 电 极 记录 的 单个 
神经 元 的 响应 特性 。 深 度 学 习 网 络 的 架构 类 似 于 视觉 皮质 的 层次 结 
构 。 


1969 年 


马 文 . 明 斯 基 (Marvin Minsky) 和 西 摩尔 . 帕 普 特 (Seymour 
Papert) 出 版 了 《感知 器 》(Perceptrons)， 该 书 指出 了 单个 人 造 神经 元 
的 计算 极限 ， 标 志 着 神经 网 络 领 域 寒冬 的 到 来 。 


1979 年 


杰 弗 里 . 辛 顿 和 往 姆 斯 .安德森 (James Anderson) 在 加 州 拉 荷 亚 
市 (La Jolla) 举办 了 “关联 记忆 的 并 行 模型 ” (Parallel Models of 
Associative Memory) 研讨 会 ， 把 新 一 代 的 神经 网 络 先驱 们 育 集 到 了 
一 起 ， 同 时 也 推动 辛 顿 和 安德森 在 1981 年 发 表 了 同名 系列 研究 著作 。 


1986 年 


第 一 届 神 经 信息 处 理 系统 大 会 (Neural Information Processing 
Systems, 以 下 统称 NIPS(B) 及 研讨 会 在 美国 丹佛 科技 中 心 举办 ， 该 会 
议 吸 引 了 很 多 不 同 领域 的 研究 人 员 。 


1. NIPS 现 通称 为 NeurIPS。- 一 译 者 注 


01 
机 品 学 习 的 崛起 


不 久之 前 ， 人 们 还 常 说 ， 计 算 机 视觉 的 辨别 能 力 尚 不 如 一 岁 大 的 
孩子 。 如 今 看 来 ， 这 人 句 话 要 改写 了 。 计 算 机 不 仅 能 和 大 多 数 成 年 人 一 
样 识 别 图 片 中 的 物体 ， 在 马路 上 驾驶 汽车 的 安全 性 还 高 过 16 岁 的 青 少 
年 。 更 神奇 的 是 ， 如 今 的 计算 机 不 再 是 被 动 按 照 指令 识别 和 驾驶 ， 而 
是 像 自然 界 的 生命 由 数 百 万 年 前 开始 进化 那样 ， 自 主 地 从 经 验 中 学 
习 。 是 数据 的 井喷 促成 了 这 一 技术 进步 。 如 果 说 数据 是 新 时 代 的 石 
油 ， 那 么 学 习 算 法 就 是 从 中 提取 信息 的 炼油 厂 ， 信 息 积累 成 知识 ， 知 
识 深化 成 理解 ， 理 解 演 变 为 智 茵 。 欢 迎 来 到 深度 学 习 的 新 世界 。( 赎 

深度 学 习 是 机 器 学 习 的 一 个 分 支 ， 它 根植 于 数学 、 计 算 机 科学 和 
神经 科学 。 深 度 网 络 从 数据 中 学 习 ， 就 像 婴 儿 了 解 周 围 世 界 那样 ， 从 
睁 开眼 睛 开始 ， 慢 慢 获 得 驾驭 新 环境 所 需 的 技能 。 深 度 学 习 的 起 源 可 
以 追溯 到 20 世 纪 50 年 代 人 工 智能 的 诞生 。 关 于 如 何 构 建 人 工 智能 ， 当 
时 存在 两 种 不 同 的 观点 : 一 种 观点 主张 基于 逻辑 和 计算 机 程序 ， 曾 主 
衬 人 工 知 能 的 研究 和 应 用 数 十 年 ， 另 一 种 观点 则 主张 直接 从 数据 中 学 
习 ， 经 历 了 更 长 时 间 的 摸索 才 逐 渐 成 熟 。 


20 世 纪 ， 计 算 机 技术 还 不 够 成 熟 ， 而 且 按 照 现在 的 标准 ， 数 据 存 
储 成 本 十 分 高 郧 ， 用 逻辑 程序 来 解决 问题 更 加 高 效 。 熟练 的 程序 员 需 
要 为 每 个 不 同 的 问题 编写 不 同 的 程序 ， 问 题 越 大 ， 相 应 的 程序 也 整 越 
复杂 。 如 今 ， 计 算 机 能 力 日 趋 强大 ， 数 据 资 源 也 变 得 庞大 且 丰 语 ， 使 
用 学 习 算 法 解决 问题 比 以 前 更 快 、 更 准确 ， 也 更 高 效 。 此 外 ， 同 样 的 
学 习 算法 还 能 用 来 解决 许多 不 同 的 难题 ， 这 远 比 为 每 个 问题 编写 不 同 
的 程序 更 加 市 省 人 力 。 


汽车 新 生态 : FLAS BUNS EA MEI 


在 2005 年 美国 国防 部 高 级 研究 计划 局 (以 下 简称 DARPA) 举办 的 
自动 芍 驶 挑战 赛 中 ， 一 辆 由 斯 坦 福 大 学 塞 巴 斯 带 安 : 特 隆 (Sebastian 
Thrun) 实验 室 开发 的 自动 区 驶 汽车 Stanley 最 终 赢 得 了 200 万 美元 现金 
K 〈 见 图 1-1) 。 团 队 利用 了 机 器 学 习 技 术 教 它 如 何 自 主 地 在 加 利 福 
尼 亚 州 的 沙漠 中 穿行 。132 英 里 的 赛 道中 有 者 干 狭 乱 的 隧道 和 和 急 转 村 
还 包括 啤酒 瓶 道 (Beer Bottle Pass) , 1X72 — Brim thr A ues, PN 
MOIE m RERA BE ( 见 图 1-2) 。 特 隆 并 没有 遵循 传统 的 


AT 方法 ， 即 通过 编写 计算 机 程序 来 应 付 各 种 偶发 事件 ， 而 是 在 沙漠 中 
驾驶 Stanley， 让 汽车 根据 视觉 和 距离 传感器 的 感应 输入 ， 学 习 如 何 像 
人 一样 驾驶 。 


rie POR - ro o P ao 
图 1-1 ae RAP Bs ILE StanleyfE20054E int T DARPA AW As 
驶 挑战 赛 。 这 项 突破 引发 了 交通 界 的 技术 革命 。 图 片 来 源 ， 塞 巴 斯 带 安 - 特 隆 。 


图 1-2 啤酒 瓶 道 。 这 段 极 具 挑 战 性 的 地 形 位 于 2005 年 DARPA 自 动 芍 驶 挑战 赛 的 末 段 。 该 赛事 
要 求 汽车 在 无 人 辅助 的 情况 下 驶 过 132 英 里 的 沙漠 荡 路 。 图 中 远 处 的 一 辆 卡车 正 要 的 坡 。 图 片 
来 源 : DARPA 。 

特 隆 后 来 参与 创立 了 高 科技 项 目 重点 实验 室 Google X， 并 开始 了 
进一步 研究 自动 驾驶 汽车 技术 的 计划 。 谷 歌 的 自动 驾驶 汽车 自 此 开 
始 ， 在 旧金山 湾 区 累积 了 350 万 英里 的 车 程 。 优 步 (Uber) 已 经 在 匹 效 
堡 投放 了 一 批 自 动 驾驶 汽车 。 苹 果 也 步 入 自动 驾驶 领域 ， 以 扩大 其 操 
作 系统 控制 的 产品 范围 ， 并 希望 能 够 再 现 它 在 手机 市 场 上 的 辉煌 。 汽 
车 制造 商 们 亲眼 看 见 一 个 100 年 来 从 未 改变 的 行业 在 他 们 眼前 发 生 了 转 
型 ， 也 开始 奋起 直 追 。 通 用 汽车 公司 以 10 亿 美元 的 价格 并 购 了 开发 无 
人 区 驶 技术 的 仁 谷 创业 公司 Cruise Automation， 并 在 2017 年 投入 了 额 
外 的 6 亿美 元 用 于 研发 。( 写 2017 年 ， 英 特 尔 以 153 亿 美元 的 价格 收购 了 
Mobileye， 它 是 一 家 专门 为 自动 驾驶 汽车 研发 传感器 和 计算 机 视觉 的 
公司 。 在 价值 数 万 亿美 元 的 交通 运输 领域 ， 参 与 的 各 方 都 下 了 极 高 的 
赌注 。 


自动 驾驶 汽车 不 久 将 扰乱 数 百 万 卡车 司机 和 出 租车 司机 的 生计 。 
最 终 ， 如 果 一 辆 自动 驾驶 汽车 能 够 在 一 分 钟 内 出 现 ， 将 你 安全 带 到 目 
的 地 上 且 无 须 停车 ， 在 城市 拥有 汽车 就 显得 不 那么 必要 了 。 今 天 ， 汽 车 
行驶 时 间 平均 仅 占 496， 这 意味 着 它 其余 96% 的 时 间 都 需要 停放 在 某 个 
地 方 。 由 于 自动 驾驶 汽车 可 以 在 城市 外 围 维修 和 停放 ， 城 市 中 被 大 量 
停车 场 占用 的 空间 得 以 被 重新 高 效 利用 。 城 市 规划 者 已 经 开始 考虑 让 
停车 场 变 成 公园 了 。 (里 街 边 的 停车 道 可 以 成 为 真正 的 自行 车 道 。 其 他 
汽车 相关 行业 也 将 受到 影响 ， 包 括 汽车 保险 业 和 修理 厂 。 超 速 和 停车 
罚单 将 不 复 存 在 。 由 醉 驾 和 疲劳 驾驶 导致 的 交通 事故 死亡 人 数 也 会 相 
应 减少 。 通 勤 浪费 的 时 间 也 将 被 节省 下 来 做 其 他 事情 。 根 据 2014 年 的 
美国 人 口 普查 数据 ，1.39 亿 上 班 族人 均 单 日 通勤 时 间 达 到 了 52 分 钟 ， 
全 年 总 计 296 亿 小 时 。 这 惊人 的 340 万 年 的 时 间 本 可 以 在 人 生 中 得 到 更 
好 的 利用 。( 固 自动 驾驶 汽车 会 使 公路 通行 能 力 翻 两 番 。( 因 而且 ， 一 
大 规模 投入 使 用 ， 没 有 方向 盘 、 可 以 自己 开 回 家 的 自动 驾驶 汽车 还 会 
让 大 规模 汽车 盗 究 行 为 销声匿迹 。 虽 然 目前 自动 驾驶 汽车 仍 面临 很 多 
监管 和 法 律 层面 的 障碍 ， 但 这 一 技术 一 旦 开始 普及 ， 我 们 就 将 迎 来 一 
个 诸 新 的 世界 。 可 以 预见 的 是 ， 卡 车 大 概 会 在 10 年 内 率先 实现 自动 加 
驶 ， 出 租车 要 花 上 15 年 ， 而 15 到 25 年 后 ， 客 运 无 人 车 将 全 面 走 入 人 们 
的 生活 。 

汽车 在 人 类 社会 中 的 标志 性 地 位 将 以 我 们 无 法 想象 的 方式 发 生变 
化 ， 一 种 新 的 汽车 生态 也 将 应 运 而 生 。 正 如 100 多 年 前 汽车 的 出 现 创造 
了 许多 新 的 行业 和 就 业 机 会 ， 围 绕 着 自动 鸭 驶 汽车 的 发 展 ， 也 出 现 了 
一 个 快速 增长 的 生态 系统 。 从 谷歌 独立 出 来 的 自动 驾驶 公司 Waymo， 
8 年 来 已 经 投入 了 10 亿 美元 ， 并 在 加 州 中 部 山谷 搭建 了 一 个 秘密 测试 声 
所 。 该 场所 位 于 一 个 占 地 91 英 亩 的 仿造 小 镇 ， 其 中 还 设计 了 骑 自 行车 
的 “演员 "和 假 的 汽车 事故 。 四 其 目的 是 扩大 训练 数据 集 以 包含 特殊 和 
不 常见 的 情况 〈 也 叫 边缘 情况 ) 。 公 路 上 罕见 的 驾驶 事件 经 常会 导致 
事故 。 自 动 驾 驶 汽车 的 不 同 之 处 就 在 于 ， 当 一 辆 汽车 遇 到 罕见 事件 
时 ， 相 应 的 学 习 体验 会 被 传递 给 所 有 其 他 自动 罗 驶 汽车 ， 这 是 一 种 集 


体 智能 。 其 他 自动 驾驶 汽车 公司 也 在 建造 许多 类 似 的 测试 设施 。 这 
举措 创造 了 以 前 并 不 存在 的 新 工作 机 会 ， 以 及 用 于 汽车 导航 的 传 感 
和 激光 器 的 新 供应 链 。( 时 

自动 鸭 驶 汽车 仅 是 信息 技术 推动 经 济 发 生 重大 转变 的 一 个 最 明显 
的 体现 。 网 络 上 的 信息 流 就 像 城 市 管道 里 的 水 流 。 信 息 在 谷歌 、 亚 马 
逊 、 微 软 和 其 他 IT 公司 的 大 型 数据 中 心 聚 集 。 这 些 数据 中 心 需要 耗费 
大 量 电力 ， 因 此 通常 建 在 水 电站 附近 ， 并 利用 河水 来 冷却 信息 流 所 产 
生 的 大 量 热 量 。2013 年 ， 美 国 的 数据 中 心 消 耗 了 1000 万 兆 瓦 的 电量 ， 
相当 于 34 个 大 型 电厂 产生 的 电力 。 估 但 是 目前 对 经 济 影响 更 大 的 是 如 
何 使 用 这 些 信息 。 从 原始 数据 中 提取 出 的 信息 被 转化 为 关于 人 和 事 的 
知识 :我 们 做 什么 ， 我 们 想 要 什么 ， 我 们 是 谁 。 计 算 机 驱动 的 设备 也 
在 越 来 越 多 地 利用 这 些 知识 与 我 们 进行 口头 上 的 交流 。 与 大 脑 之 外 、 
书本 之 中 的 被 动 知识 不 同 ， 储 存在 云 中 的 知识 是 一 种 外 部 智能 ， 并 且 
正在 成 为 人 们 生活 中 积极 、 活 跃 的 一 部 分 。 
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自然 语言 翻译 从 语言 到 句子 的 飞跃 


如 今 ， 谷 歌 在 超过 100 种 服务 中 使 用 了 深度 学 习 ， 包 括 街景 视图 
(Street View) 、 收 件 箱 智 能 回复 (Inbox Smart Reply) 和 语音 搜索 。 
儿 年 前 ， 谷 歌 的 工程 师 意 识 到 他 们 需要 将 这 些 计算 密集 型 应 用 扩展 到 
云端 。 他 们 开始 着 手 设计 一 种 用 于 深度 学 习 的 专用 心 片 ， 并 巧妙 地 设 
计 了 可 以 插入 数据 中 心机 架 中 的 硬盘 插 模 的 电路 板 。 合 歌 的 张 量 处 理 
单元 (TPU) 现在 已 配置 在 遍布 全 球 的 服务 器 上 ， 让 深度 学 习 应 用 程 
序 的 性 能 得 到 了 大 幅 改 进 。 
深度 学 习 快 速 改 变 格 局 的 一 个 例子 是 它 对 语言 翻译 的 影响 。 语 言 
翻译 是 人 工 智 能 的 一 只 圣杯 ， 因 为 它 依赖 于 理解 句子 的 能 力 。 合 歌 最 
近 推 出 了 基于 深度 学 习 的 最 新 版 谷歌 翻译 (Google Translate) ， 代 表 


了 目 然 语言 翻译 质量 的 重大 飞跃 。 几 乎 一 夜 之 间 ， 语 言 翻译 残 从 零散 
杂乱 的 拼凑 短语 ， 升 级 到 了 语意 完整 的 句子 〈 见 图 1-3) 。 之 前 的 计算 
机 方法 搜索 的 是 可 以 被 一 并 翻译 的 词汇 组 合 ， 但 深度 学 习 会 在 整个 名 


子 中 寻找 词汇 之 间 的 依赖 关系 。 


图 1-3 手机 上 的 谷歌 翻译 应 用 可 以 将 日 语文 字 和 菜单 即时 译 成 美文 。 这 一 功能 对 于 在 日 本 如 何 
按照 指示 牌 乘 车 尤为 重要 。 


得 知 谷歌 翻译 获得 了 巨大 进步 的 消 轧 后 ，2016 年 11 月 18 日 AR 
大 学 的 古本 纯 一 (Jun Rekimoto) 测试 了 这 个 新 系统 。 他 把 欧 内 斯 特 : 
海明威 的 小 说 《人 乞 力 马 扎 罗 的 雪 》 开 头 的 一 段 话 翻译 成 了 日 文 ， 然 后 
再 把 这 段 日 文 翻译 成 英文 ， 结 果 如 下 〈 猜 猜 哪个 是 海明威 的 原作 ) : 


1. Kilimanjaro is a snow-covered mountain 19,710 feet high,and is 
said to be the highest mountain in Africa. Its western summit is called 
the Masai “Ngaje Ngai,” the House of God. Close to the western 


summit there is the dried and frozen carcass of a leopard. No one has 
explained what the leopard was seeking at that altitude.) 


2. Kilimanjaro is a mountain of 19,710 feet covered with snow and 
is said to be the highest mountain in Africa. The summit of the west is 
called “Ngaje Ngai” in Masai, the house of God. Near the top of the 
west there is a dry and frozen dead body of leopard. No one has ever 


explained what leopard wanted at that altitude G 


海明威 的 原作 是 第 一 段 。 


下 一 步 工作 是 训练 更 大 规模 的 深度 学 习 网 络 ， 针 对 段落 来 提高 名 
子 间 的 连贯 性 。 文 字 背 后 都 有 悠久 的 文化 历史 。 俄 裔 作家 和 英文 小 说 
家 ，《 洛 丽 塔 》 一 书 的 作者 弗 拉 基 米 尔 . 纳 博 科 夫 (Vladimir 
Nabokov) 曾经 得 出 结论 ， 在 不 同 语言 之 间 翻 译 诗 歌 是 不 可 能 的 。 他 
将 亚历山大 :普希金 (Aleksandr Pushkin) 的 诗 体 小 说 《 叶 甫 盖 尼 : 奥 涅 
金 》 (Eugene Onegin) 直译 成 了 英文 ， 并 对 这 些 诗 文 的 文化 背景 做 了 
解释 性 脚注 ， 以 此 论证 他 的 观点 。( 电 或 许 谷歌 翻译 终 有 一 天 能 够 通过 
整合 莎士比亚 的 所 有 诗歌 来 翻译 他 的 作品 。( 乌 


语音 识别 ， 实 时 跨 文 化 交流 不 再 遥远 


人 工 智能 的 另 一 只 圣杯 是 语音 识别 。 不 久之 前 ， 计 算 机 的 独立 语 
音 识 别 应 用 领域 还 很 有 限 ， 如 机 票 预订 。 而 如 今 ， 限 制 已 不 复 存 在 。 
2012 年 ， 一 名 来 自 多 伦 多 大 学 的 实习 生 在 微软 研究 院 (Microsoft 
Research) 的 一 个 夏季 研究 项 目 中 ， 让 微软 的 语音 识别 系统 性 能 得 到 
了 显著 的 提升 (Ria) 。 信 2016 年 ， 微 软 的 一 个 团队 宣布 ， 他 们 开 
发 的 一 个 拥有 120 层 的 深度 学 习 网 络 已 经 在 多 人 语音 识别 基准 测试 中 达 
到 了 与 人 类 相当 的 水 平 。 人 所 ) 


" >. - À 
Came together to develop with @notherbreakthrough in the _ 
field of speech recognition research. 

The idea that they had was to us&a technology In a 
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Recoqeliabilicy: One 


图 1-4 微软 首席 研究 官 里 克 - 拉 希 德 (Rick Rashid) 在 2012 年 10 月 25 日 于 中 国 天 津 举行 的 一 场 
活动 中 ， 使 用 深度 学 习 进行 了 自动 语音 识别 的 现场 演示 。 在 2000 名 中 国 观众 面前 ， 拉 希 德 说 
的 英文 被 自动 化 系统 识别 ， 先 在 他 的 屏幕 图 像 下 方 显示 出 英文 字幕 ， 随 后 被 翻译 成 了 中 文 。 
此 次 高 难度 展示 被 全 球 媒体 争 相 报道 。 图 片 来 源 : 微软 研究 院 。 

这 一 突破 性 成 果 将 在 之 后 的 几 年 逐渐 影响 我 们 的 社会 ， 计 算 机 键 
盘 会 被 目 然 语言 接口 取代 。 随 着 数字 助手 ， 如 亚马逊 上 的 Alexa、 平 条 的 
Siri 以 及 微软 的 Cortana 先 后 进入 于 家 万 户 ， 这 种 取代 已 经 在 发 生 了 。 
PBT ARRAS A, FR eee, ARE Ae Zu 
也 将 成 为 博物 馆 的 展品 。 

当 语 首 识别 和 语言 翻译 结合 到 一 起 时 ， 实 时 的 跨 文 化 交流 将 有 可 
能 实现 。《 星 际 迷 航 》 中 那 种 万 能 翻译 机 将 触手 可 及 。 为 什么 计算 机 
语音 识别 和 语言 翻译 达到 人 类 的 水 平 要 花 这 么 久 的 时 间 ? 难道 计算 机 
的 各 种 认 知 能 力 同 时 进入 普 贷 期 仅仅 古 巧 合 吗 ? 其 实 所 有 这 些 突破 都 
源 于 大 数据 的 出 现 。 


AI 医疗 : 医学 诊断 将 更 加 准确 


深入 皮肤 


随 着 机 器 学 习 的 成 熟 并 被 应 用 于 可 获取 大 数据 的 许多 其 他 问题 ， 
服务 行业 和 其 相关 职业 也 将 发 生 转变 。 基 于 数 百 万 患者 病情 记录 的 医 
学 诊断 将 变 得 更 加 准确 。 最 近 的 一 项 研究 将 深度 学 习 运用 到 了 囊括 超 
过 2000 种 不 同 疾病 的 13 万 张 皮肤 病 学 图 像 中 ， 这 个 医学 数据 库 是 以 前 
的 10 倍 大 (图 1-5) 。 名 该 研究 的 网 络 被 训练 用 于 诊断 “测试 
集 ” (testset， 它 从 未 见 过 的 新 图 像 集 ) 中 的 各 种 疾病 。 它 在 新 图 像 上 
的 诊断 表现 与 21 位 皮肤 科 专 家 的 结论 基本 一 致 ， 甚 至 在 某 些 情况 下 还 
要 更 准确 。 在 不 久 的 将 来 ， 任 何 一 个 拥有 智能 手机 的 人 都 可 以 拍 下 疑 
似 皮肤 病变 的 照片 ， 并 立即 进行 诊断 一 而 现在 要 完成 同样 的 过 程 ， 
我 们 需要 先 去 看 医生 ， 耐 心 等 待 病变 被 专家 筛 查 出 来 ， 然 后 再 支付 一 
大 笔 账单 。 这 一 进步 将 大 大 扩大 皮肤 病 护理 的 范围 ， 提 升 护理 质量 。 
如 果 个 体 可 以 很 快 得 到 专家 诊断 ， 他 们 会 在 皮肤 病 的 早期 阶段 ， 也 就 
是 更 容易 治疗 的 时 候 就 开始 就 医 。 借 助 深度 学 习 ， 所 有 的 医生 都 将 更 
准确 地 诊断 罕见 的 皮肤 病 。 乌 
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1-5 艺术 家 绘制 的 高 准确 度 诊断 皮肤 病变 的 深度 学 习 网 络 图 ，2017 年 2 月 2 日 《自然 》 杂 志 封 
HI o 


深入 癌症 


如 果 专 家 在 转移 性 乳腺 癌 的 淋巴 结 活检 切片 图 像 上 判断 错误 ， 就 
有 可 能 导致 致命 的 后 果 。 这 是 一 种 深度 学 习 擅 长 的 模式 识别 问题 。 实 
际 上 ， 一 个 经 过 大 量 结论 清晰 的 切片 数据 训练 出 来 的 深度 学 习 网 络 能 
达到 0.925 的 准确 度 ， 还 不 错 ， 但 还 不 及 人 类 专家 在 同一 测试 集 上 达到 
的 0.966。( 岂 然而 ， 把 深度 学 习 与 人 类 专家 的 预测 结合 起 来 ， 准 确 度 达 
到 了 0.995， 几 近 完 美 。 由 于 深度 学 习 网 络 和 人 类 专家 查看 相同 的 数据 
的 方式 不 同 ， 二 者 相 结 合 的 效果 比 单独 预测 要 好 。 这 样 一 来 ， 更 多 的 
生命 得 以 被 挽救 。 这 表明 在 未 来 ， 人 类 与 机 器 将 是 合作 而 非 竞争 的 关 
系 。 


深入 睡眠 


如 果 你 有 严重 的 睡眠 问题 (70% 的 人 一 生 中 都 会 遇 到 这 个 问 
题 ) ， 你 要 等 待 几 个 月 才能 见 到 你 的 医生 (除非 问题 十 分 紧急 ) ， 然 
后 你 会 被 转 到 一 个 睡 眼 诊所 。 在 那里 ， 你 需要 在 号 上 接 几 十 个 能 在 你 
入 睡 时 记录 你 的 脑 电 图 (EEG) 和 肌肉 活动 的 电极 ， 接 受 彻夜 观察 。 
每 个 上 晚上， 你 会 先进 入 慢 波 睡眠 ， 然 后 定期 进入 快速 眼 动 (REM) BE 
卢 ， 在 此 期 间 ， 你 会 做 梦 ， 但 是 失眠 、 有 睡眠 呼吸 暂停 综合 征 、 不 宁 腿 
综合 征 以 及 许多 其 他 睡眠 障碍 会 干扰 这 种 睡眠 模式 。 如 果 你 在 家 里 就 
很 难 入 睡 ， 那 么 在 一 张 陌 生 的 床上 ， 全 身 接 满 了 让 人 不 安 的 医疗 设备 
进入 睡眠 状态 ， 绝 对 算得 上 真正 的 挑战 。 睡 眠 专家 会 查看 你 的 脑 电 图 
记录 ， 以 30 秒 为 单位 标记 睡眠 阶段 ， 一 段 8 小 时 的 睡眠 要 花 几 个 小 时 才 
能 标记 完 。 而 最 终 你 会 得 到 一 份 有 关 睡 眼 模式 异常 情况 的 报告 ， 以 及 
一 份 2000 美 元 的 账单 。 


依据 1968 年 由 安东尼 . 雷 希 特 施 芬 (Anthony Rechtshaffen) 和 艾 伦 : 
FEH (Alan Kales) 设计 的 系统 ， 睡 眠 专家 将 接受 寻找 表征 不 同 睡眠 
阶段 特征 迹象 的 培训 。 人 所 但 是 由 于 这 些 特 征 常常 不 明确 ， 也 不 一 致 
只 有 75% 的 情况 下 专家 们 能 在 数据 解读 上 达成 一 致 。 相 比 之 下 ， 我 实 
验 室 之 前 的 一 名 研究 生 菲 利 普 . 洛 (Philip Low) 使 用 无 监督 机 器 学 
习 ， 花 了 不 到 一 分 钟 的 计算 机 运算 时 间 ， 以 3 秒 的 时 间 分 辩 率 自动 检测 
睡眠 阶段 ， 和 87% 的 人 类 专家 达成 了 一 致 的 结论 。 此 外 ， 这 种 方式 只 
需要 在 头 部 的 单个 位 置 做 记录 ， 用 不 到 那些 触 点 和 接线 ， 也 节省 了 大 
量 佩戴 和 摘除 的 时 间 。2007 年 ， 我 们 创立 了 一 家 公司 Neurovigil， 想 将 
这 项 技术 引入 睡眠 诊所 ， 但 诊所 对 此 没有 表现 出 多 大 兴趣 ， 因 为 靠 人 
力 标注 能 产生 更 多 的 现金 流 。 实 际 上 ， 依 据 保险 号 向 患者 开具 账单 ， 
会 让 诊所 没有 动机 采用 更 廉价 的 程序 。Neurovigil 在 大 型 制药 公司 发 现 
了 另 一 个 市 场 ， 这 些 公司 在 开展 临床 试验 ， 需 要 测试 他 们 的 药物 对 睡 
眠 模式 的 影响 。 这 项 技术 目前 正在 进入 长 期 护理 设施 市 场 ， 帮 助 解决 
在 老年 人 中 更 普遍 的 进行 性 睡眠 问题 。 


睡眠 诊所 模式 是 存在 缺陷 的 ， 因 为 在 这 样 的 限制 条 件 下 不 能 可 靠 
地 诊断 出 健康 问题 ， 每 个 人 的 生理 基数 都 不 同 ， 而 偏离 这 个 基数 的 信 
居 最 重要 。Neurovigil 已 经 有 了 一 个 小 型 设备 iBrain， 它 可 以 在 家 里 记 
录 你 的 脑 电 图 信息 ， 将 数据 传 到 网 上 并 分 析 数 据 的 长 期 趋势 和 异常 情 
况 。 这 可 以 帮助 医生 及 早 发 现 健康 问题 ， 在 恶化 前 及 时 干预 并 阻止 慢 
性 疾病 的 发 展 。 其 他 很 多 疾病 的 治疗 也 将 受益 于 持续 监测 ， 如 1 型 糖尿 
病 ， 血 糖水 平 可 以 被 监测 并 通过 胰岛 素 进 行 调节 。 使 用 能 够 连续 记录 
数据 的 廉价 传 感 硕 正在 对 其 他 慢性 疾病 的 诊断 和 治疗 产生 重大 影响 。 

从 Neurovigil 的 发 展 过 程 中 可 以 看 出 : 第 一 ， 即 便 拥 有 更 好 更 廉价 
的 技术 ， 也 不 代表 能 轻易 地 将 其 转化 为 有 市 场 价值 ， 甚 至 更 优质 的 新 
产品 或 服务 ; 第 二 ， 当 现 有 产品 在 市 场 中 的 地 位 根深 蒂 固 ， 吏 会 进 一 
步 开发 出 深入 应 用 的 二 级 市 场 ， 可 以 让 新 技术 产生 更 直接 的 影响 ， 并 
争取 时 间 来 改进 ， 提 升 苋 争 力 。 太 阳 能 和 许多 其 他 新 兴 产 业 的 技术 就 


征 这 样 进 入 市 场 的 。 从 长 远 来 看 ， 已 被 证 实 具 有 优势 的 睡眠 监测 和 痢 
技术 将 会 履 盖 到 家 中 的 患者 ， 并 最 终 融 入 医疗 实践 。 


金融 科技 ， 利 用 数据 和 算法 获取 最 住 回报 


纽约 证 券 交 易 所 超过 75% 的 交易 都 是 自动 完成 的 〈 图 1-6) ， 高 频 
交易 能 在 几 分 之 一 秒 内 进出 仓位 。 《如 果 你 不 用 为 每 笔 交 易 文 付费 
用 ， 那 么 即使 是 很 小 的 优势 也 能 带 来 巨额 利润 。) 更 长 时 间 范 围 内 的 
算法 交易 会 考虑 到 基于 大 数据 的 长 期 趋势 。 深 度 学 习 在 赚钱 和 提高 利 
润 方面 做 得 越 来 越 好 。( 守 预测 金融 市 场 ， 问 题 在 于 数据 嗜 杂 ， 条 件 不 
稳定 一 一 一 场 选举 或 国际 冲突 可 能 会 导致 投资 者 心态 在 一 夜 之 间 发 生 
变化 。 这 意味 着 用 来 预测 今天 股票 价值 的 算法 可 能 到 明天 整 不 准 了 。 
在 实践 中 ， 被 用 来 赚钱 的 算法 有 数 百 种 ， 表 现 突出 的 则 被 不 断 整合 以 
实现 最 优 回报 。 


ao 


传统 的 长 期 投资 


得 头寸 持 有 时 间 K 


图 1-6 延迟 vs 头寸 持 有 时 间 “。 在 线 机 器 学 习 正 在 推动 算法 交易 ， 它 比 传统 的 长 期 投资 策略 更 快 
eee 。 许 多 不 同类 型 的 机 器 学 习 算 法 被 组 合 运用 以 获得 最 
早 在 20 世 纪 80 年 代 ， 我 还 在 为 摩根 士 丹 利 的 股票 交易 神经 网 络 模 

型 提供 咨询 时 ， 遇 到 了 专门 设计 并 行 计 算 机 的 计算 机 科学 家 大 卫 . 肖 

(David Shaw) 。 哥 伦比 亚 大 学 学 术 休假 期 间 ， 首 曾 在 自动 化 交易 早 
期 担任 量化 分 析 师 ， 随 后 他 在 华尔街 创立 了 目 己 的 投资 管理 公司 德 动 
集团 (The D. E. Shaw Group) ， 现 在 他 已 经 是 亿 万 富 倘 了 。 德 动 集团 
非常 成 功 ， 但 仍然 过 于 另 一 家 对 冲 基 金 文艺 复兴 科技 公司 

(Renaissance Technologies) 。 这 家 基金 是 由 杰出 的 数学 家 、 纽 约 州立 
大 学 石 溪 分 校 数 学 系 前 主任 詹姆斯 :西蒙 斯 (James Simons) 创立 的 。 
仅 2016 年 ， 西 蒙 斯 就 挣 了 16 亿 美元 ， 这 还 算 不 上 他 最 好 的 一 年 。( 同 文 
艺 复 兴 科技 被 称 为 “世界 上 最 好 的 物理 和 数学 系 ，”( 时 “ 它 不 会 座 用 带 有 
哪怕 一 点 点 华尔街 正统 味道 的 人 *。( 因 

不 再 参与 德 动 的 日 常 运 营 后 ， 大 卫 : 肖 现在 专注 于 德 动 研究 所 (D. 

E. Shaw Research) 的 业务 ， 该 研究 所 搭建 了 一 台 名 为 “Anton” 的 专用 
并 行 计算 机 ， 比 全 球 其 他 计算 机 执行 蛋白 质 折 县 的 速度 都 快 得 多 。 人 四) 
西蒙 斯 退休 后 不 再 掌管 文艺 复兴 科技 ， 而 是 建立 了 资助 自 闭 症 及 其 他 
物理 和 生物 科学 项 目 研 究 的 基金 会 。 通 过 加 州 大 学 伯克利 分 校 的 西蒙 
斯 计算 理论 研究 所 (the Simons Institute for the Theory of Computing at 
UC Berkeley) ` jit 38 TA GEH PE Seo ee SA Aw O (the Simons 
Center for the Social Brain at MIT) #1 2H 2) 32 -IAR be (the Flatiron 
Institute) ， 西 蒙 斯 的 慈善 事业 对 推进 数据 分 析 、 建 模 和 仿真 的 计算 方 
法 产生 了 重大 影响 。 © 


更 广泛 的 金融 服务 正在 金融 科技 (fintech) 的 大 背景 下 发 生 大 规 
模 转 型 。 诸 如 区 块 链 这 样 的 信息 技术 一 一 一 种 安全 的 互联 网 记 账 方 
式 ， 取 代 了 金融 交易 的 中 间 商 一 一 正在 接受 小 规模 的 测试 ， 但 它 很 快 
束 会 扰乱 价值 数 万 亿美 元 的 金融 市 场 。 机 器 学 习 正 在 锐 用 于 改进 贷款 
信用 评估 ， 准 确 地 提供 业务 和 财务 信息 ， 在 社交 媒体 上 获取 预测 市 场 


W 


趋势 的 信号 ， 并 为 金融 交易 提供 生物 识别 安全 服务 。 谁 拥有 最 多 的 数 
据 ， 谁 束 古 万 家 ， 而 世界 上 充斥 着 财务 数据 。 


深度 法 律 : 效率 的 提高 与 避 用 的 降低 


深度 学 习 刚 刚 开始 影响 法 律 界 。 律 师 事务 所 每 小 时 收费 数 百 美元 
的 法 务 助理 的 大 部 分 日 常 工作 都 将 实现 自动 化 ， 特 别 是 在 高 档 写字 楼 
办 公 的 规模 化 事务 所 里 。 具 体 点 说 ， 技 术 辅助 审核 或 调查 将 被 人 工 知 
能 接管 ， 它 可 以 浏览 数 千 份 文件 以 获取 合法 证 据 ， 且 丝毫 不 会 感到 大 
倦 。 自 动 化 深度 学 习 系 统 也 将 帮助 律师 事务 所 遵守 日 益 复杂 的 政府 规 
定 。 这 些 系 统 将 为 现在 无 法 负担 律师 费用 的 普通 人 提供 法 律 建议 。 法 
律 工作 不 仅 收费 会 更 便宜 ， 也 会 更 高 效 ， 这 一 点 通常 比 费用 更 重要 。 
法 律 世界 正在 走向 “深度 法 律 ”。 © 


德州 扑克 : 当 机 如 和 消 能 学 会 了 虚 张 声势 


对 一 无 限 注 德州 扑克 是 最 受 欢 迎 的 扑克 玩法 之 一 ， 和 常见 于 赌 
场 ， 无 限 注 投注 方式 则 通常 出 现在 世界 扑克 系列 赛 (World Series of 
Poker) 的 主 赛事 中 。 扑 克 很 有 挑战 性 ， 因 为 与 国际 象棋 玩家 可 以 获得 
相同 的 信息 不 同 ， 扑 克 玩 家 的 信息 不 完整 ， 而 且 在 最 高 级 别 的 比赛 
中 ， 诈 吐 、 其 骗 的 技巧 和 拿 到 的 牌 一 样 重要 。 


数学 家 约翰 : 冯 : 庄 依 曼 (John von Neumann) 创立 了 数学 博大 理 
论 ， 也 是 数字 计算 机 之 父 ， 他 残 对 扑克 特别 着 迷 。 他 说 过 : “现实 生活 
包括 虚 张 声势 ， 一 点 欺骗 手段 ， 以 及 目 问 男 一 个 人 会 怎么 评判 我 做 事 
的 意图 。 这 就 是 我 理论 中 博弈 的 内 涵 。> 沁 扑克 是 一 种 博弈 ， 反 映 了 
经 过 进化 精炼 过 的 人 类 智能 的 一 部 分 。 一 个 名 为 "DeepStack” 的 深度 学 
习 网 络 和 33 名 职业 扑克 选手 进行 了 44852 场 比赛 。 令 扑克 专家 震惊 的 


古 ， 它 以 相当 大 的 优势 ， 一 个 标准 差 ， 击败 了 最 出 色 的 扑克 玩家 ， 同 
时 以 四 个 标准 差 在 整体 上 击败 了 全 部 33 名 玩家 一 一 多 么 巨大 的 差距 


( 见 图 1-7) 。( 因 如果 这 一 成 就 能 复制 到 其 他 基于 不 完全 信息 、 需 要 
人 来 做 判断 的 重要 领域 ， 比 如 政治 学 和 国际 关系 ， 其 影响 可 能 是 极其 
深远 的 。 


图 1-7 一 对 一 无 限 注 德州 扑克 。 强 势 手 牌 。DeepStack 已 经 掌握 了 如 何在 高 筹码 扑克 中 虚 张 声 
势 ， 以 大 比分 优势 击败 职业 扑克 玩家 。 


AlphaGo: 神经 科学 与 人 工 知 能 的 协同 


2016 年 3 月 ， 韩 国 围棋 界 18 次 世界 冠军 获得 者 李 世 石 (Lee Sedol) 
与 DeepMind 公 司 的 AlphaGo 〈 图 1-8) 一 一 一 个 使 用 深度 学 习 网 络 评估 
盘面 形势 和 可 能 的 走 法 的 围棋 程序 “进行 了 5 场 比赛 。( 沁 围棋 相对 
国际 象棋 的 难度 ， 相 当 于 国际 象棋 对 跳棋 的 难度 。 如 果 国 际 象棋 是 一 
场 战 役 ， 那 么 围棋 就 是 一 场 战 争 。 一 块 19x19 围 棋 棋 盘 比 一 块 8x8 象 棋 
棋盘 大 得 多 ， 这 使 得 在 棋盘 的 不 同 部 分 可 能 同时 发 生 多 场 战役 。 不 同 


战役 之 间 存 在 长 期 的 相互 作用 ， 即 使 是 专家 也 难以 判断 。 围 棋 的 合法 
棋局 总 数 是 101 3， 远 远 超 过 宇宙 中 的 原子 数量 。 
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41-8 韩国 围棋 冠军 李 世 石 对 战 AlphaGo 的 5 场 比赛 里 ， 某 一 场 战 局 中 的 棋盘 。AlphaGo 是 一 个 
通过 与 自己 下 围棋 来 学 习 的 深度 学 习 神 经 网 络 。 

除了 几 个 评估 和 恒 局 并 选择 最 佳 着 数 的 深度 学 习 网 络 ，AlphaGo 还 
有 一 个 完全 不 同 的 学 习 系统 ， 用 于 解决 时 间 信 用 分 配 问 题 : 在 众多 步 
棋 中 ， 哪 一 步 对 说 得 胜利 有 所 页 献 ， 哪 一 步 对 失败 承担 黄 任 ?大脑 的 
基底 神经 节 接 收 来 目 整 个 大 脑 皮 层 的 投 喘 ， 并 投射 回去 ， 利 用 时 间 莽 
分 算法 和 强化 学 习 来 解决 这 个 问题 。AlphaGo 使 用 由 基底 神经 节 进 化 
出 来 的 相同 的 学 习 算法 ， 以 评估 最 大 化 未 来 奖励 的 行动 顺序 (这 一 过 
程 将 在 第 10 章 中 做 出 解释 ) 。AlphaGo 通 过 反复 和 自己 下 棋 来 学 习 这 
一 技能 。 

AlphaGo 和 人 李 世 石 对 决 的 围棋 比赛 在 亚洲 得 到 了 极 高 的 关注。 在 
亚洲 ， 围 棋 冠军 是 全 国 性 的 公众 人 物 ， 有 着 揪 深 明星 一 样 的 得 遇 。 
AlphaGo 早 些 时 候 击 败 了 欧洲 的 围棋 冠军 ， 但 是 那 场 比赛 的 水 平 远 低 
于 亚洲 的 最 高 水 平 ， 因 此 李 世 石 并 没有 做 好 打 一 场 硬仗 的 心理 准备 。 
即使 是 开发 AlphaGo 的 公司 DeepMind， 也 并 不 清楚 他 们 的 深度 学 习 程 


| peg 


序 到 底 有 多 强大 。 自 上 一 场 比赛 以 来 ，AlphaGo 已 经 与 好 几 个 版 本 的 
自己 下 了 数 百 万 局 的 柑 ， 然 而 并 没有 任何 标准 来 判断 它 的 水 平 到 底 达 
到 了 何 种 高 度 。 

AlphaGo 赢 得 了 5 场 比赛 的 前 3 场 后 ， 许 多 人 都 感到 十 分 震惊 ， 
为 它 展 现 出 了 让 人 意 想 不 到 的 高 水 准 。 这 项 比赛 在 韩国 有 很 高 的 关注 
度 ， 所 有 的 主流 电视 台 都 对 比赛 进行 了 实况 报道 。AlphaGo 有 一 些 着 
数 是 革命 性 的 。 在 第 二 场 比 赛 的 第 三 十 八 步 ，AlphaGo 下 出 了 精彩 的 
一 着 ， 让 李 世 石 感到 十 分 惊讶 ， 他 花 了 将 近 10 分 钟 的 时 间 才 决定 下 一 
步 要 怎么 走 。 AlphaGo 输 掉 了 第 四 场 比赛 ， 这 是 人 类 挽回 颜面 的 一 场 
胜利 ， 最 终 它 的 战绩 是 4 胜 1 负 (图 1-9) 。 泽 3 月 的 夜晚 ， 我 在 圣迭戈 
的 凌晨 兴致 勃勃 地 观看 了 这 场 较量 。 这 让 我 回想 起 1966 年 6 月 2 日 凌晨 1 
点 ， 我 在 克利 夫 兰 市 ， 坐 在 电视 机 旁 关 注 着 “勘测 者 1 号 ?探测 器 降落 在 
月 球 上 ， 并 传 回 了 第 一 张 月 球 照片 。\ 忆 我 亲眼 见证 了 这 些 历史 时 刻 。 
AlphaGo 的 表现 远 远 超出 了 我 和 其 他 许多 人 的 期 待 。 


图 1-9 在 2016 年 3 月 的 围棋 挑战 赛 中 输 给 了 AlphaGo 之 后 的 李 世 石 。 


2017 年 1 月 4 日 ， 一 个 名 为 <Master* 的 选手 在 一 个 网 络 围棋 服务 器 
上 主动 现 身 ， 其 真正 身份 是 AlphaGo 2.0。 在 此 之 前 ， 它 在 与 世界 顶尖 
棋 手 的 比赛 中 取得 了 60 场 全 胜 的 战绩 ， 被 击败 的 棋 手 中 包括 当时 世界 
排名 第 一 的 高 手 ，19 岁 天 才 棋 手 柯 洁 。AlphaGo 显 露出 了 一 种 能 与 同 
时 代 的 佼佼 者 抗衡 的 全 新 风格 。2017 年 5 月 27 日 ， 在 中 国 乌镇 举办 的 围 
棋 峰会 上 ， 柯 洁 以 3 场 氏 负 的 结果 输 给 了 AlphaGo ( 见 图 1]-10) 。 这 是 
有 上 史 以 来 最 精彩 的 几 场 围棋 比赛 ， 数 亿 中 国人 都 观看 了 该 赛事 。“ 去 
年 ， 我 还 觉得 AlphaGo 的 表现 与 人 类 非常 接近 ， 但 今天 我 认为 它 是 " 围 
棋 之 神 :。” 柯 洁 这 样 总 结 道 。 


在 第 一 场 比 赛 中 ， 他 以 一 目 半 的 微弱 差距 输 掉 了 比赛 。 柯 洁 说 
他 “在 比赛 中 途 已 经 感觉 快要 赢 了 ”。 他 非常 兴奋 : “我 能 感觉 到 自己 的 
J AEZEREDE ALB! 可 能 因为 我 太 兴奋 ， 有 几 步 棋 走 错 了 。 也 许 这 就 是 
人 类 棋 手 最 薄弱 的 部 分 吧 。> 沁 柯 洁 经 历 了 一 种 情绪 上 的 超 负荷 ， 但 
要 达到 最 佳 状态 ， 更 需要 相对 沉稳 的 情绪 。 事 实 上 ， 舞 台 演 员 们 都 知 
道 ， 如 果 他 们 演出 前 没有 胃 里 翻 江 倒 海 的 紧张 感 ， 就 无 法 呈现 出 最 精 
彩 的 演出 。 他 们 的 表演 遵循 一 种 倒 U 形 曲线 ， 即 最 佳 状态 处 于 较 低 和 
较 高 的 兴 奇 点 之 间 。 运 动员 把 这 叫 作 “在 状态 ”。 
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图 1-10 2017 年 在 中 国 ，DeepMind 的 联合 创始 人 兼 CEO 德 米 斯 . 哈 萨 比 斯 (Demis Hassabis, 


左 ) 和 柯 洁 在 历史 性 的 围棋 比赛 结束 后 会 面 ， 共 同 展示 带 有 柯 洁 签名 的 棋盘 。 图 片 来 源 : $8 
米 斯 . 哈 萨 比 斯 。 


2017 年 5 月 26 日 ，AlphaGo 还 击败 了 由 5 名 顶尖 棋 手 组 成 的 队伍 。 
这 些 棋 手 都 分 析 过 AlphaGo 的 招数 ， 并 已 经 在 相应 地 改变 自己 的 策 
略 。 这 场 比赛 由 中 国政 府 主办 ， 可 以 说 是 一 个 新 版 的 < 乒乓 外 交 ”。 (2) 
中 国正 在 机 器 学 习 方面 投入 大 量 资金 ， 其 大 脑 研 究 计划 的 一 个 主要 目 
标 是 挖掘 大 脑 潜能 来 创造 新 的 算法 。 人 四 

该 围棋 事件 后 续 的 发 展 可 能 会 更 令 人 惊叹 。 在 开始 跟 上 自己 下 棋 之 
前 ，AlphaGo 是 通过 观察 学 习 16 万 次 人 类 围棋 比赛 起 步 的 。 有 人 认为 
这 是 作 浆 一 一 一 个 自主 的 AI 程 序 应 该 能 够 在 没有 积累 任何 人 类 知识 的 
条 件 下 学 习 下 围棋 。2017 年 10 月 ， 一 于 名 为 AlphaGo Zero 的 新 版 本 AI 
程序 面世 了 。 它 从 游戏 规则 开始 一 步 步 学 习 下 围棋 ， 击 败 了 曾 战 胜 柯 
洁 的 版 本 AlphaGo Master， 战 绩 为 100:0。 OMA, AlphaGo Zero 的 学 
习 速 度 比 AlphaGo Master 快 100 倍 ， 而 计算 能 力 差 不 多 只 有 后 者 的 


1/10。 完 全 忽略 人 类 的 知识 ，AlphaGo Zero 变 成 了 无 敌 超人 。 随 着 机 
妖 学 习 算 法 的 不 断 进步 ，AlphaGo 还 会 变 得 多 么 优秀 ， 并 没有 已 知 的 
上 限 。 


AlphaGo Zero 虽 然 没 有 和 人 下 棋 ， 但 仍然 有 许多 围棋 知识 被 人 为 
添加 到 程序 中 强化 棋艺 的 特征 。 如 果 没 有 任何 围棋 知识 ，AlphaGo 
Zero 也 许 仍 有 进一步 改进 的 空间 。 就 像 零度 可 乐 将 可 口 可 乐 里 所 有 的 
热量 分 离 出 来 一 样 ， 围 棋 的 所 有 知识 都 被 从 Alpha Zero 中 剥离 出 来 。 
结果 ，Alpha Zero 能 够 更 快 、 更 果断 地 打败 AlphaGo Zero ° (=) T 3t 
一 步 说 明 “ 少 就 是 多 ”，Alpha Zero 在 没有 改变 任何 一 个 学 习 参 数 的 情况 
下 ， 学 会 了 如 何以 超人 的 水 准 下 国际 象棋 ， 还 创造 了 人 类 从 未 使 用 过 
的 着 数 。 在 与 Stockfish 这 个 已 经 是 超人 级 别 的 顶级 国际 象棋 程序 的 对 
DH, Alpha Zero 还 没有 输 过 。 在 一 场 比赛 中 ，Alpha Zero 大 胆 地 牺牲 
了 一 个 象 这 种 做 法 通常 用 来 获得 位 置 上 的 优势 ， 随 后 又 牺牲 了 王 
后 ， 这 一 步 看 起 来 像 是 个 大 异 着 儿 ， 直 到 很 多 步 以 后 ，Alpha Zero 冷 
不 防 将 了 一 军 ， 无 论 是 Stockfish 还 是 人 类 棋 手 都 没 能 预见 到 这 样 的 结 
果 。 外 星人 已 经 着 陆 ， 地 球 从 此 要 改头换面 了 。 


AlphaGo 的 开发 者 DeepMind 于 2010 年 由 神经 学 家 德 米 斯 . 哈 萨 比 斯 
参与 创立 ， 他 曾 在 伦敦 大 学 学 院 的 盖 殉 比 计 算 神 经 科学 部 门 
( University College London's Gatsby Computational Neuroscience 
Unit) 担任 博士 后 研究 员 。 该 部 门 由 彼得 : 达 扬 (Peter Dayan) 领导 ， 
达 扬 曾 是 我 实验 室 的 博士 后 研究 员 ，2017 年 和 雷 蒙 德 :多 兰 (Raymond 
Dolan) 以 及 沃 尔 夫 拉 姆 : 舒 尔 次 (Wolfram Schultz) 共同 获得 了 享有 已 
誉 的 “大 脑 奖 ” (Brain Prize) ， 以 表彰 他 们 在 奖励 学 习 方 面 的 研究 。 合 
歌 在 2014 年 以 6 亿美 元 的 价格 收购 了 DeepMind。 该 公司 雇用 了 400 多 名 
工程 师 和 神经 科学 家 ， 拥 有 学 术 界 和 创业 公司 混合 的 双重 文化 。 神 经 
科学 与 人 工 智 能 之 间 的 协同 作用 日 渐 深入 ， 而 且 还 在 加 速 。 


弗 林 效应 : 深度 学 习 让 人 类 更 加 着 能 


AlphaGo 有 智力 吗 ? 除了 "意识 "这 个 主题 ， 关 于 智力 的 文章 比 心理 
学 中 任何 其 他 主题 都 要 多 得 多 ， 这 两 个 概念 都 很 难 界定 。 自 20 世 纪 30 
年 代 以 来 ， 心 理学 家 就 对 流体 智力 和 晶体 智力 进行 了 区 分 一 流体 知 
力 能 够 将 新 条 件 中 的 推理 和 模式 识别 用 于 解决 新 间 题 ， 而 不 依赖 于 以 
前 的 知识 ;晶体 智 力 则 依赖 于 先前 的 知识 ， 也 是 标准 智商 测试 (HUIQ 
测试 ) 的 对 象 。 流 体 智力 遵循 一 种 抛物 线 式 发 展 轨 迹 ， 在 成 年 早期 达 
到 高 峰 ， 并 随 着 年 龄 的 增长 逐渐 下 降 ， 而 晶体 智力 会 随 年 龄 的 增长 ， 
缓慢 渐进 式 地 提高 ， 直 至 草 年 。AlphaGo 只 在 一 个 相当 狭 窗 的 领域 同 
时 展现 出 了 晶体 智力 和 流体 智力 ， 但 在 这 个 领域 ， 它 表现 出 了 令 人 惊 
讶 的 创造 力 。 专 业 知识 的 获取 也 是 基于 在 狭窄 领域 的 学 习 。 我 们 都 是 
语言 领域 的 专家 ， 每 天 都 在 使 用 语言 。 

AlphaGo 使 用 的 强化 学 习 算 法 可 以 被 用 来 解决 许多 问题 。 这 种 形 
式 的 学 习 只 取决 于 在 一 系列 动作 结束 时 给 予 获胜 者 的 奖励 ， 这 似乎 和 
提前 做 出 更 好 的 决策 相 了 矛盾。 结合 了 许多 强大 的 深度 学 习 网 络 ， 就 会 
生成 许多 领域 相关 的 智能 。 而 且 事 实 上 ， 已 经 出 现 了 与 领域 相关 的 不 
同类 型 智能 ， 例 如 社会 、 情 感 、 机 械 和 建筑 等 的 案例 。( 沁 智力 测试 测 
量 的 一 般 因 素 (general factor, APNR) 与 这 些 不 同类 型 相关 。 我 
们 有 理由 认真 审视 IQ 测 试 。 自 20 世 纪 30 年 代 首 次 测试 智力 以 来 ， 全 人 
类 平均 的 IQ 分 数 每 10 年 会 上 升 三 个 点 ， 这 一 趋势 被 称 为 “ 弗 林 效 
M" (Flynn effect) 。 对 于 弗 林 效应 有 许多 可 能 的 解释 ， 比 如 更 充足 的 
营养 、 更 完善 的 医疗 体系 ， 以 及 其 他 环境 因素 。( 岂 这 很 有 道理 ， 因 为 
环境 会 影响 基因 调控 ， 从 而 影响 大 脑 内 在 的 连接 ， 行 为 也 会 随 之 发 生 
变化 。( 守 随 着 人 类 越 来 越 多 地 生活 在 人 造 环境 中 ， 大 脑 正 在 以 某 种 超 
越 自然 进化 轨道 的 方式 被 塑造 。 在 更 长 的 时 间 内 ， 人 类 是 否 能 一 直 都 
在 变 得 更 聪明 ? 智商 增长 会 持续 多 久 ? 用 电脑 玩 国 际 象棋 、 西 洋 双 陆 
棋 和 围棋 的 人 数 自 计 算 机 程序 达到 冠军 级 别 后 一 直 在 稳步 增加 ， 而 机 
器 也 强化 了 人 类 玩家 的 智能 。 信 深度 学 习 提 升 的 将 不 仅仅 是 科学 研究 
人 员 的 智能 ， 还 包括 所 有 行业 从 业 人 员 的 智能 。 


科学 仪器 正 以 惊人 的 速度 产生 数据 。 位 于 日 内 瓦 的 大 型 强 子 对 撞 
机 (LHC) 中 发 生 的 基本 粒子 人 碰撞 每 年 产生 25PB (1PB-1000TB) 的 
数据 。 大 型 综合 这 天 望远镜 (LSST) 每 年 将 产生 6PB 的 数据 。 机 器 学 
习 正 被 用 于 分 析 庞 大 的 物理 和 天 文 数 据 集 ， 其 规模 之 浩大 让 人 类 根本 
无 法 通过 传统 方法 进行 搜索 。( 电 例如 ，DeepLensing 是 一 种 神经 网 络 ， 
可 以 识别 遥远 星系 的 图 像 。 这 些 图 像 由 于 光 在 传播 中 因 围绕 周边 星系 
的 “引力 透镜 ”造成 的 光路 信 折 而 被 扭曲 了 。 这 一 技术 可 以 目 动 发 现 许 
多 遥远 的 新 星系 。 物 理学 和 天 文学 中 还 有 许多 其 他 类 似 “ 大 海 护 针 ”的 
问题 ， 而 深度 学 习 能 够 让 传统 的 数据 分 析 方 法 如 虎 添 经 。 


新 教育 体系 ， 每 个 人 都 需要 终身 学 习 


银行 在 20 世 纪 60 年 代 后 期 推出 了 面向 银行 账户 持 有 人 的 全 天 候 现 
金 提取 服务 ， 这 对 于 那些 在 银行 正常 营业 时 间 之 外 需要 现金 的 人 来 说 
非常 方便 ， 自 动 提 款 机 (ATM) 从 此 获得 了 阅读 手写 支票 的 能 力 。 尽 
管 它们 的 存在 减少 了 银行 柜员 的 日 常 工 作 量 ， 但 有 越 来 越 多 的 柜员 为 
客户 提供 按揭 和 投资 建议 等 个 性 化 服务 ， 同 时 也 出 现 了 维修 ATM 的 新 
工种 。 舍 就 如 一 方面 ， 蒸 汽机 代替 了 体力 劳动 者 ， 但 另 一 方面 ， 这 为 
能 够 建造 和 维护 蒸汽 机 及 驱动 蒸汽 机 车 的 熟练 工人 提供 了 新 的 就 业 机 
会 。 亚 马 逊 的 在 线 营销 也 将 许多 员工 从 当地 实体 零售 店 中 迁移 出 来 ， 
但 同时 也 为 分 配 和 运输 其 商品 ， 以 及 许多 使 用 其 平台 的 企业 创造 了 38 
万 个 新 的 工作 机 会 。( 时 由 于 现在 需要 人 类 认 知 技能 的 工作 被 自动 化 人 
工 智能 系统 所 接管 ， 那 些 能 够 创建 和 维护 这 些 系统 的 人 将 会 获得 新 的 
工作 。 


工作 变动 不 是 什么 新 鲜 事 。19 世 纪 ， 农 场 劳 工 被 机 器 取代 ， 机 器 
也 在 城市 工厂 创造 了 新 的 工作 机 会 ， 所 有 这 些 都 需要 一 个 教育 系统 来 
培训 工人 新 的 技能 。 不 同 之 处 在 于 ,今天 ， 由 人 工 状 能 开辟 的 新 职位 
除了 需要 传统 的 认 知 技能 之 外 ， 还 需要 新 的 、 不 同 的 、 不 断 变化 的 技 


能 。( 因 所 以 我 们 都 需要 终身 学 习 。 要 做 到 这 一 点 ， 我 们 需要 一 个 以 家 
姓 ， 而 不 是 以 学 校 为 基础 的 新 教育 体系 。 
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免费 的 大 规模 开放 式 在 线 课程 募 课 (MOOCs) 也 应 运 而 生 ， 来 帮助 人 
们 获取 新 的 知识 和 技能 。 虽 然 仍 处 于 初级 阶段 ， 但 莫 课 的 在 线 教育 生 
态 系 统 正在 迅速 发 展 ， 并 在 为 更 广泛 的 人 群 提供 前 所 未 有 的 优质 教 
学 。 与 下 一 代数 字 辅 助 系 统 相 结 合 ， 莫 课 则 可 能 会 带 来 变革 。 芭 芭 拉 : 
奥 克 利 (Barbara Oakley) 和 我 开设 了 一 门 名 为 “学 会 如 何 学 
2]" (Learning How to Learn) 的 莫 课 一 一 该 热门 课程 会 教 你 如 何 成 为 
更 好 的 学 习 者 ( 见 图 1-11) 一 一 以 及 一 门 名 为 “思维 转 
换 ” (Mindshift) 的 慕 课 ， 教 你 如 何 改造 自己 并 改变 你 的 生活 方式 (这 
两 门 课 将 在 第 12 章 中 详细 介绍 ) 。 
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Learning 
How to Learn 


图 1-11 “学 会 如 何 学 习 ” 教 你 如 何 成 为 更 好 的 学 习 者 ， 它 是 互联 网 上 最 受 欢迎 的 莫 课 ， 拥 有 超 
过 300 万 学 习 者 。 

进行 网 上 操作 上 时， 其 实 正在 生成 机 器 可 读 的 天 于 你 自己 的 大 数 
据 。 根 据 你 在 互联 网 上 行为 的 蛛丝马迹 ， 你 正在 被 目 动 生成 的 相关 广 
告 定 位 。 你 在 Facebook (脸谱 网 ) 和 其 他 社交 媒体 网 站 上 发 布 的 信息 
可 被 用 于 创建 数字 助理 ， 它 几乎 比 世 界 上 任何 其 他 人 都 更 了 解 你 ， 并 
且 不 会 遗漏 任何 内 容 ， 实 际 上 就 相当 于 你 的 虚拟 分 喘 。 通 过 将 互联 网 
跟踪 和 深度 学 习 都 纳入 服务 ， 现 在 这 些 孩 子 的 后 代 拥 有 的 教育 机 会 将 
比 今天 富裕 家 庭 拥有 的 最 优质 的 教育 机 会 还 要 好 。 这 些 孙 夫 将 拥有 目 


己 的 数字 导师 ， 导 师 将 在 整个 教育 过 程 中 陪伴 他 们 。 教 育 不 仅 会 变 得 
更 加 个 性 化 ， 也 会 变 得 更 加 精准 。 世 界 各 地 已 经 开展 了 各 种 各 样 的 教 
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以 根据 自己 的 节奏 进步 ， 并 适应 每 个 儿童 的 特定 需求 。( 思 数字 导师 的 
普及 将 使 教师 从 教学 中 的 重复 劳动 ， 如 评分 中 解脱 出 来 ， 专 注 于 人 类 
最 擅长 的 事情 一 一 对 学 习 困 难 的 学 生 提 供 精 神 文 持 ， 并 给 予 有 天 赋 的 
学 生灵 感 启发 。 教 育 技术 (Edtech) 正在 快速 发 展 ， 与 自动 芍 驶 汽车 
相 比 ， 传 统 教 育 癌 精 准 教 育 过 渡 的 速度 可 能 相当 快 ， 因 为 它 必 须 元 服 
的 障碍 要 小 得 多 ， 需 求 却 要 大 得 多 ， 而 且 美 国 的 教育 古 一 个 万 亿美 元 
的 市 场 。( 央 一 个 主要 的 问题 就 是 ， 谁 能 够 访问 数字 助理 和 数字 导师 的 
AERE o 
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` 会 将 AI 用 于 军事 目的 的 承诺 协议 。 斯 带 芬 -霍金 (Stephen Hawking) 

MEIR- (Bill Gates) 公开 发 表 声 明 ， 警 告 人 工 智 能 可 能 对 人 类 造 
成 的 生存 威胁 。 伊 隆 : 马 斯 克 (Elon Musk) 和 其 他 硅谷 企业 家 成 立 了 
一 家 新 公司 OpenAI， 拥 有 10 亿 美元 储备 金 ， 并 聘请 了 杰 弗 里 . 溯 顿 之 前 
的 一 名 学 生 伊 利 娅 .次 特 斯 科 娃 (Ilya Sutskever) 担任 第 一 任 总 监 。 虽 
然 OpenAI 的 既定 目标 是 确保 未 来 人 工 智 能 的 发 现 将 公开 供 所 有 人 使 
用 ， 但 它 还 有 另 一 个 隐 含 的 更 重要 的 目标 : 防止 私人 公司 作恶 。 
AlphaGo 战 胜 了 围棋 世界 冠军 李 世 石 ， 一 个 临界 点 也 随 之 到 来 。 几 乎 
在 一 夜 之 间 ， 人 工 智 能 从 一 项 失败 的 技术 ， 转 变 成 了 可 感知 的 生存 威 
胁 。 


一 种 新 兴 技术 被 看 作 生存 威胁 ， 这 已 经 不 是 第 一 次 了 。 核 武器 的 
发 明 、 改 进 和 储存 曾经 是 一 种 毁灭 全 世界 的 威胁 ， 但 至 少 到 目前 为 
止 ， 我 们 有 能 力 阻止 这 种 情况 的 发 生 。 重 组 DNA 技 术 刚 问世 的 时 候 ， 
人 们 担心 经 人 工 改 造 的 致命 生物 会 从 实验 室 逃 出 来 ， 导 致 全 球 范围 内 
出 现 难以 估量 的 痛苦 和 死亡 。 基 因 工 程 现在 已 经 是 一 项 成 熟 的 技术 ， 
目前 我 们 已 经 能 和 它 的 产物 共存 。 与 核武 器 和 致命 生物 相 比 ， 机 器 学 
习 的 最 新 进展 构成 的 威胁 相对 较 小 。 我 们 也 将 适应 人 工 智能 。 事 实 
上 ,这 已 经 在 发 生 了 。 

DeepStack 的 成 功 带 来 的 其 中 一 个 上 暗示 是 ， 深 度 学 习 网 络 可 以 学 习 
如 何 成 为 世界 顶级 的 骗子 。 训 练 深层 网 络 能 干什么 只 受 限于 训练 者 的 
想象 力 和 数据 。 如 果 一 个 网 络 可 以 接受 安全 驾驶 汽车 的 训练 ， 那 么 它 
也 可 以 被 训练 驾驶 F 1 赛车 ， 很 可 能 有 人 愿意 为 此 掏腰包 。 今 天 ， 我 们 
仍然 需要 技术 娴熟 和 训练 有 素 的 从 业 人 员 使 用 深度 学 习 来 搭建 产品 和 
服务 ， 但 随 着 计算 能 力 的 成 本 持续 下 降 、 软 件 功能 更 加 自动 化 ， 很 
快 ， 高 中 生 就 可 能 具备 开发 AI 应 用 程序 的 能 力 了 。 作 为 德国 收入 最 高 
的 在 线 电 子 商 务 公司 ， 奥 托 (Oto) 主要 经 营 服装 、 家 居 和 体育 用 
品 。 它 正在 利用 深度 学 习 ， 根 据 历史 订单 信息 预测 客户 未 来 可 能 购买 
的 产品 ， 并 提前 为 他 们 下 单 。( 电 客户 几乎 在 订购 前 就 收 到 了 自己 想 订 
购 的 商品 ， 准 确 率 达 到 90%。 自 动 完成 工作 且 无 筑 人 工 干预 ， 这 种 预 
订 操 作 不 仅 可 以 每 年 为 公司 在 剩余 库存 和 退货 环节 节省 数 百 万 欧元 ， 
还 提高 了 客户 满意 度 和 保有 率 。 深 度 学 习 显著 提高 了 奥 托 公司 的 生产 
力 ， 却 并 没有 取代 它 的 工人 。 人 工 智能 可 以 让 你 在 工作 中 更 高 效 。 

虽然 主要 的 高 科技 公司 开拓 了 深度 学 习 的 应 用 ， 但 机 器 学 习 工具 
已 经 普遍 存在 了 ， 许 多 其 他 公司 也 开始 从 中 受益 。Alexa 是 一 个 广 受 欢 
迎 的 数字 助理 ， 与 亚马逊 Echo 智能 音箱 配合 使 用 ， 能 够 基于 深度 学 习 
对 自然 语言 发 出 的 请 求 做 出 回应 。 亚 马 逊 网 络 服务 (AWS) 引入 了 名 
为 “Lex”、“Poly” 和 “Comprehend” 的 工具 箱 ， 可 以 分 别 基于 自动 化 文 
字 、 语 音 转换 、 语 音 识别 和 自然 语言 理解 ， 方 便 地 开发 相同 的 自然 语 


言 界面 。 具 有 对 话 交互 能 力 的 应 用 程序 现在 可 供 无 力 雇用 机 器 学 习 专 
家 的 小 型 企业 使 用 。 企 业 通 过 应 用 这 一 程序 可 以 提高 客户 满意 度 。 


当 最 好 的 人 类 棋 手 在 计算 机 程序 面前 都 黯然 失色 时 ， 人 类 会 不 再 
下 棋 吗 ? 正 相反 ， 人 工 智 能 会 提高 人 类 的 竞技 水 平 ， 也 使 得 棋 类 竞技 
更 加 大 众 化 。 顶 级 的 国际 象棋 选手 曾经 都 来 自 莫斯科 和 纽约 等 大 城 
市 。 这 些 地 方 大 师 云集 ， 可 以 教授 年 轻 棋 手 并 提高 他 们 的 技能 水 平 。 
国际 象棋 电脑 程序 使 得 在 挪威 小 镇 长 大 的 马 格 努 斯 .卡尔 森 (Magnus 
Carlson) 13 岁 就 成 为 国际 象棋 大 师 ， 如 今 他 已 是 世界 国际 象棋 冠军 。 
人 工 智能 不 仅 对 游戏 产生 了 正面 的 影响 ， 更 会 推动 人 类 付 诸 努力 的 各 
个 方面 ， 从 艺术 到 科学 。AI 可 以 让 你 变 得 更 聪明 e () 
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本 书 有 两 个 相互 交织 的 主题 : 人 类 智能 是 如 何 进 化 的 ， 以 及 人 工 
智能 会 如 何 演变 。 这 两 种 智能 之 间 的 巨大 差异 在 于 ， 人 类 智能 的 进化 
经 历 了 数 百 万 年 的 时 间 ， 而 人 工 智能 在 最 近 几 十 年 才 发 展 起 来 。 尽 管 
对 于 文化 演变 来 说 ， 这 个 速度 仍然 是 快 得 出 奇 ， 但 是 过 于 庶 小 慎 微 可 
能 并 不 是 个 正确 的 选择 。 

深度 学 习 在 近期 取得 的 突破 ， 并 不 是 你 从 新 闻 报 道中 读 到 的 那 种 
一 夜 成 功 。 从 基于 符号 、 逻 辑 和 规则 的 人 工 智能 辐 基 于 大 数据 和 学 习 
算法 的 深度 学 习 网 络 的 转变 ， 其 背后 的 故事 通常 并 不 为 人 所 熟知 。 本 
书 介绍 了 这 个 故事 ， 并 从 我 的 角度 探讨 了 深度 学 习 的 起 源 和 成 果 。 作 
为 20 世 纪 80 年 代 开 发 神经 网 络 学 习 算 法 的 先行 者 和 NIPS 基 金 会 的 主 
席 ， 我 亲身 经 历 了 过 去 30 年 机 器 学 习 和 深度 学 习 的 发 展 过 程 。 我 和 同 
在 神经 网 络 领域 的 同事 多 年 来 都 未 能 取得 令 人 瞩目 的 成 就 ， 但 坚持 和 
耐心 最 终 给 我 们 带 来 了 回报 。 
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人 工 知 能 的 重生 


马 文 . 明 斯 基 是 一 位 杰出 的 数学 家 ， 也 是 麻 省 理工 学 院 人 工 智能 实 
验 室 (以 下 简称 MIT AI Lab) 时 的 创始 人 之 一 。 创 始 团队 确定 了 这 个 
领域 的 方向 和 文化 。 麻 省 理工 学 院 的 人 工 智能 研究 在 20 世 纪 60 年 代 成 
了 聪明 人 的 阵地 ， 这 在 很 大 程度 上 要 归功 于 明 斯 基 。 他 每 分 钟 冒 出 的 
新 点 子 比 我 认识 的 任何 人 都 多 ， 而 且 能 让 你 相信 他 对 一 个 问题 的 看 法 
是 对 的 ， 尽 管 这 个 看 法 会 让 人 觉得 有 悖 常识 。 我 很 钦佩 他 的 大 胆 和 宪 
智 ， 但 是 并 不 认同 他 研究 AI 所 选择 的 方向 。 


看 似 简 单 的 视 蜗 识别 


积木 世界 (Blocks World) 是 MIT AILab 在 20 世 纪 60 年 代 推 出 的 一 
个 项 目 上 典范 。 为 了 简化 视觉 问题 ,积木 世 界 由 矩形 积木 组 成 ， 可 以 堆 
县 起 来 组 成 新 的 结构 〈 见 图 2-1) 。 该 项 目的 目标 是 编写 一 个 能 够 理解 
命令 的 程序 ， 例 如 “找到 一 个 大 的 黄色 积木 并 将 其 放 在 红色 积木 上 
面 >， 并 规划 出 让 机 器 人 手臂 执行 命令 所 需 的 步 又。 这 看 起 来 像 小 孩子 
玩 的 游戏 ， 但 却 需要 编写 一 个 庞大 而 复杂 的 程序 来 实现 。 这 个 程序 后 
来 变 得 十 分 元 长 烦琐 ， 以 至 于 编写 该 程序 的 学 生 特 里 . 维 诺 格 拉 德 
(Terry Winograd) 离开 该 实验 室 之 后 ， 该 程序 因为 错误 百出 ， 频 频 朋 
误 ， 最 终 被 无 奈 地 放弃 了 “。 这 个 看 起 来 很 简单 的 问题 比 任 何人 想象 的 
都 要 难得 多 ， 即 使 成 功 了 ， 也 很 难 把 积木 世界 同 现实 世界 顺利 地 连接 
起 来 ， 毕 竟 在 现实 世界 中 物体 有 不 同 的 形状 、 大 小 和 重量 ， 而 且 并 非 
所 有 边 角 都 是 直角 。 相 比 于 照明 的 方向 和 位 置 都 能 固定 的 可 控 实 验 环 


境 ， 在 现实 世界 中 ， 照 明 可 能 因 地 点 和 时 间 的 不 同 而 发 生 显 著 变化 ， 
这 极 入 地 增加 了 计算 机 物体 识别 任务 的 复杂 性 。 
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图 2-1 a. 明 斯 基 在 观察 机 器 人 堆 积木 (HR | 片 拍摄 于 1968 年 左右 ) PANER ERN S 
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世界 交 豆 的 信 化 版 本 ， 但 它 面 对 的 问题 比 任何 人 想象 的 都 要 复杂 得 多 ， 直 到 2016 年 才 通过 深 
度 学 习 解 决 。 

20 世 纪 60 年 代 ，MIT AI Lab 获 得 了 来 自 一 个 军事 研究 机 构 的 大 笔 
资金 ， 被 要 求 用 于 打造 一 个 可 以 打 乒 乓 球 的 机 器 人 。 我 曾经 听 过 一 个 
故事 ， 那 就 是 这 个 项 目的 负责 人 起 了 在 基金 申请 书 中 加 上 为 机 器 人 建 

立 一 个 视觉 系统 的 预算 ， 于 是 他 把 这 个 问题 分 配给 了 一 个 研究 生 作为 
暑期 研究 项 目 。 后 来 我 问 马 文 : 明 斯 基 这 个 故事 是 不 是 真 的 。 他 反驳 
JB: “我 们 把 那个 问题 分 配给 了 本 科 生 。?”MIT 档 案 中 的 一 份 文 件 证 实 
了 他 的 回答 。( 电 这 个 看 上 去 很 容易 解决 的 问题 ， 最 终 被 证 明 是 个 “ 陷 
阱 >， 吞噬 了 整整 一 代 计 算 机 视觉 研究 人 员 的 青春 。 


计算 机 视 寅 的 进步 


尽管 物体 的 位 置 、 大 小 、 方 同和 受到 的 光照 不 同 ， 我 们 却 很 少 在 
识别 物体 时 感到 吃力 。 计 算 机 视觉 研究 中 最 早 的 想法 之 一 是 将 物体 的 


模板 与 图 像 中 的 像素 进行 匹配 ， 但 是 这 种 方法 收效 甚 徽 ， 因 为 同一 物 
体 不 同 角度 的 两 个 图 像 中 的 像素 并 不 匹配 。 例 如 ， 参 考 图 2_2 中 的 两 只 
鸟 。 如 果 你 将 一 只 鸟 的 影像 覆盖 到 另 一 只 鸟 上 ， 你 可 以 找到 一 块 匹配 
的 部 分 ， 但 其 余部 分 就 完全 对 不 上 了 ; 但 是 如 果 有 另 一 个 种 类 的 鸟 相 
同 姿势 的 图 像 ， 你 却 可 以 得 到 相当 好 的 匹配 结果 。 

计算 机 视觉 的 进步 是 通过 关注 特征 而 非 像素 来 实现 的 。 例 如 ， 赏 
乌 者 必须 具备 专业 水 平 才 能 区 分 只 在 一 些 细微 处 略 有 差异 的 不 同 乌 
类 。 一 本 关于 鸟 类 鉴别 的 实用 畅销 书 中 只 有 一 张 鸟 的 照片 ， 却 有 许多 
示意 图 指出 了 各 种 鸟 之 间 的 细微 差别 ( 见 图 2_3) 。 人 所 一 个 好 的 特征 
是 指 一 种 鸟 类 独 有 的 特征 ， 但 是 如 果 在 别 的 种 类 中 也 可 以 找到 这 些 特 
征 ， 那 么 就 要 靠 辟 带 、 眼 纹 和 翼 斑 的 独特 标记 组 合 来 区 分 。 当 这 些 标 
记 组 合 为 近亲 种 类 所 共享 时 ， 就 要 根据 叫 声 和 歌声 进一步 区 分 。 乌 类 
的 草图 或 彩绘 能 更 好 地 将 我 们 的 注意 力 引导 到 相关 的 区 别 特征 上 ， 相 
ee ee 
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图 2-2 两 只 斑 胸 草 尖 在 互相 审视 对 方 。 我 们 不 难看 出 它们 是 同一 物种 。 但 是 因为 它们 面 对 镑 头 
的 角度 不 同 ， 所 以 很 难 将 它们 与 模板 对 应 ， 即 使 它们 具有 几乎 相同 的 特征 。 


图 2-3 可 用 于 区 分 相似 乌 类 的 显著 特征 。 箭 头 指向 的 是 恤 带 的 位 置 ， 对 于 分 辩 芍 科 非 常 重要 : 
有 的 轮 亡 清晰 ， 有 的 界线 模糊 ， 有 的 是 双 条 的 ， 有 的 长 ， 有 的 短 。 图 片 来 源 ，Peterson, 
Mountfort, and Hollom, Field Guide tothe Birds of Britain and Europe, 5th ed., p.16。 

这 种 基于 等 征 的 识别 方法 存在 的 问题 ， 不 仅 在 于 针对 世界 上 数 万 
种 不 同 物体 开发 特征 检测 器 十 非 常 耗费 人 力 的 ， 而 且 即 便 使 用 最 精确 
的 特征 检测 器 ， 被 部 分 遮挡 住 的 物体 的 图 像 也 会 产生 歧义 ， 这 使 得 识 
别 混乱 场景 中 的 物体 成 了 计算 机 所 面临 的 一 项 艰巨 任务 。 

20 世 纪 60 年 代 ， 没 有 人 能 想到 我 们 要 伦 上 50 年 ， 计 算 机 的 运算 能 
力 需要 提升 100 万 倍 ， 才 能 让 计算 机 视觉 达到 人 类 的 水 平 。 当 时 有 一 种 
市 有 误导 性 的 直觉 ， 认 为 编写 计算 机 视觉 程序 很 容易 。 这 种 直觉 是 基 
于 我 们 认为 很 简单 的 行为 ， 例 如 看 、 听 、 四 处 走动 一 一 但 这 些 行为 是 
经 过 了 几 百 万 年 的 目 然 进 化 才 实现 的 。 让 早期 AI 先 张 十 分 司 恼 的 是 ， 
他 们 发 现 计 算 机 视觉 问题 非常 难以 解决 。 相 比 之 下 ， 他 们 发 现 通 过 编 
写 程 序 让 计算 机 证 明 数 学 定理 要 容易 得 多 一 一 这 个 过 程 曾 被 认为 需要 
最 高 水 平 的 智能 一 一 因为 计算 机 处 理 逻 辑 问题 的 能 力 比 人 类 要 强 得 
多 。 晃 辑 思维 是 进化 后 期 的 产物 ， 即 便 对 于 人 类 ， 也 需要 接受 从 届 辑 
命题 到 得 出 严谨 结论 的 长 期 训练 。 然 而 ， 对 于 大 多 数 我 们 所 面临 的 生 
存 问 题 ， 从 以 往 经 验 中 总 结 出 的 解决 方案 ， 在 大 部 分 时 间 都 能 发 挥 作 
用 。 


早期 人 工 章 能 发 展 缓慢 


20 世 纪 七 八 十 年 代 流 行 的 人 工 智能 专家 系统 ， 被 开发 用 以 通过 遵 
循 一 套 规 则 来 解决 医学 诊断 等 问题 。 因 此 ， 一 个 早期 的 专家 系统 
MYCIN， 被 开发 用 于 识别 导致 感染 性 疾病 如 细菌 性 脑膜 炎 的 细菌 。( 馈 
根据 专家 系统 方法 ，MYCIN 的 开发 者 首先 要 收集 由 传染 病 专家 提供 的 
事实 和 规则 ， 以 及 病人 的 症状 和 病史 ， 然 后 将 信息 输入 系统 中 的 计算 
机 ， 最 后 通过 编写 程序 让 计算 机 使 用 逻辑 进行 推理 。 然 而 ， 开 发 者 在 
收集 专家 提供 的 事实 和 规则 时 遇 到 了 麻烦 ， 尤 其 是 在 更 复杂 的 领域 ， 
最 好 的 诊断 医师 并 不 依赖 规则 ， 而 是 依靠 难以 编码 的 基于 经 验 的 图 案 
识别 ， 舍 而且 他 们 的 系统 必须 随 着 新 发 现 的 诞生 和 旧 规 则 的 过 时 而 不 
断 更 新 。 开 发 者 在 收集 和 输入 病人 的 症状 和 病史 信息 时 遇 到 了 更 多 的 
困难 。 录 入 每 个 病人 的 信息 需要 花 上 半 小 时 或 更 长 的 时 间 ， 忙 磅 的 医 
生 们 根本 腾 不 出 这 么 多 时 间 。 因 此 ，MYCIN 从 未 被 应 用 于 临床 是 预料 
之 中 的 事 。 尽 管 有 许多 针对 其 他 应 用 的 专家 系统 被 开发 了 出 来 ， 例 如 
有 毒物 质 泄漏 管理 、 自 动 驾 驶 车 辆 的 任务 规划 ， 以 及 语音 识别 等 ， 但 
如 今 ， 这 些 系统 在 实际 生活 中 很 少 被 用 到 。 

研究 人 员 在 人 工 智 能 发 展 早期 尝试 了 许多 不 同 的 方法 ， 这 些 方法 
通常 都 很 巧妙 ， 但 并 不 实用 。 他 们 不 仅 低估 了 现实 世界 问题 的 复杂 
性 ， 而 且 提 出 的 解决 方案 无 法 进行 大 规模 应 用 。 在 复杂 的 领域 中 ， 规 
则 的 数量 可 能 会 非常 庞大 ， 并 且 随 着 新 的 事实 的 出 现 而 不 断 被 添加 ， 
跟踪 所 有 规则 的 例外 情况 并 与 之 互动 变 得 十 分 不 切实 际 。 例 如 ， 道 格 
拉 斯 :- 勒 奈 (Douglas Lenat) 在 1984 年 启动 了 一 个 名 为 “Cyc” 的 项 目 ， 
想 要 将 常识 代码 化 ， 这 在 当时 似乎 是 一 个 好 主意 ， 但 实际 操作 起 来 却 
成 了 一 场 卉 梦 。( 守 我 们 对 世界 上 的 大 量 事实 都 觉得 理所当然 ， 其 中 大 
部 分 都 是 基于 经 验 。 例 如 ， 从 40 英 尺 的 高 度 落下 的 猫 可 能 会 毫发 无 
损 ， 亿 但 是 从 同一 高 度 坠 落 的 人 就 不 同 了 。 


早期 AI 进展 得 如 此 缓慢 的 另 一 个 原因 是 ， 数 字 计 算 机 还 处 于 非常 
原始 的 阶段 ， 并 且 以 今天 的 标准 来 看 存储 器 成 本 十 分 高 昂 。 但 是 由 于 
数字 计算 机 在 逻辑 运算 、 符 号 操作 和 规则 应 用 方面 非常 高 效 ， 这 些 计 
算 原 语 在 20 世 纪 会 受到 青睐 并 不 令 人 惊讶 。 这 也 促使 了 卡 内 基 - 梅 隆 大 
学 (Carnegie Mellon University) 的 两 位 计算 机 科学 家 艾 伦 : 纽 维 尔 
(Allen Newell) 和 赫 伯 特 :西蒙 (Herbert Simon) 于 1955 年 写成 了 一 套 
名 为 “逻辑 理论 家 ”的 计算 机 程序 ， 它 可 以 证 明 《数学 原理 》 
(Principia Mathematica) 一 书 中 的 逻辑 定理 。《 数 学 原理 》 是 阿尔 弗 
雷 德 : 怀 特 海德 (Alfred North Whitehead) 和 伯 特 兰 : 罗 素 (Bertrand 
Russell) 尝试 把 所 有 的 数学 知识 系统 化 的 一 套 书 。 这 一 时 期 ， 人 们 对 
于 智能 电脑 即将 到 来 寄予 了 厚望 。 


那些 试图 编写 具有 人 类 智能 的 计算 机 程序 的 AI 先驱 ， 本 身 并 不 太 
关心 大 脑 是 如 何 实现 智能 行为 的 。 我 问 艾 伦 : 纽 维尔 其 中 的 缘由 ， 他 告 
诉 我 ， 他 本 人 对 大 脑 研 究 的 见解 持 开放 态度 ， 但 当时 根本 没有 足够 的 
相关 信息 可 以 借鉴 。 大 脑 功 能 的 基本 原理 在 20 世 纪 50 年 代 才 慢 慢 开始 
被 揭 开 ， 相 关 领 域 的 带头 人 包括 艾 伦 . 霍 奇 金 (Alan Hodgkin) 和 安 德 
S-E (Andrew Huxley) ， 他 们 解释 了 大 脑 信号 是 如 何 通过 神经 
中 的 电 脉 冲 来 实现 远 距离 传送 的 ， 而 男 一 带头 人 伯 纳 德 : 卡 洗 (Berard 
Katz) 则 发 现 了 这 些 电 子 信 号 如 何 经 突 触 转化 为 化 学 信号 来 实现 神经 
TEME © 


到 了 20 世 纪 80 年 代 ， 人 们 对 大 脑 的 了 解 日 益 增加 ， 并 且 在 生物 学 
领域 以 外 对 大 脑 的 接触 也 变 得 更 加 广泛 ， 但 对 于 新 一 代 的 AI 研究 人 员 
来 说 ， 大 脑 本 身 已 经 变 得 无 关 紧 要 了 。 他 们 的 目标 是 编写 一 个 程序 ， 
使 其 拥有 和 大 脑 一 样 的 功能 。 在 哲学 里 ， 这 种 立场 被 称 为 “功能 
义 ”"， 对 许多 人 来 说 ， 这 是 一 个 可 以 忽略 生物 学 中 杂乱 细 市 的 绝 佳 说 
辞 。 但 是 一 小 群 不 属于 主流 群体 的 AI 研究 人 员 认 为 ， 受 大 脑 生 物 学 局 
发 的 那些 被 称 为 “神经 网 络 ”`\“ 连 接 主义 ?和 "并 行 分 布 处 理 ” 的 AI 实现 
方法 ， 会 最 终 解 决 困扰 基于 逻辑 的 AI 研究 的 难题 。 我 正 是 那 一 小 群 人 
ER qe 
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1989€, MITiTSENUSISE CIS Ee RA (Michael 
Dertouzos) 邀请 我 到 MIT 做 一 个 有 关 我 在 基于 神经 网 络 的 人 工 智能 领 
域 采 用 的 开拓 性 研究 方法 的 “杰出 学 者 讲座 ”( 图 2-4) 。 到 场 后 ， 我 受 


到 了 德 图 佐 斯 的 热情 接待 。 乘 电梯 时 他 告诉 我 : “MIT 有 个 传统 ， 术 出 
学 者 讲座 的 演讲 者 需要 在 午餐 时 用 5 分 钟 的 时 间 与 教师 和 学 生 一 起 讨论 
他 的 讲座 话题 。“ 而 且 ，” 当 电梯 门 打开 时 ， 他 补充 道 , “他 们 挺 反 感 
你 在 做 的 事情 。” 


图 2-4 我 在 介绍 大 脑 皮 层 的 比例 法 则 ， 那 是 在 1989 年 我 加 入 索 尔 克 生 物 研究 所 (Salk 
Institute) PAJE ° KFX: Ciencia Explicada ° 


房间 里 挤 满 了 差不多 一 百人 ， 德 图 佐 斯 也 很 意外 。 科 学 家 们 站 成 
一 个 圈 ， 足 足 有 三 层 ， 高 级 教员 在 第 一 层 ， 第 二 层 是 初级 教员 ， 学 生 
在 最 后 一 层 。 我 走 到 圆圈 的 中 心 ， 正 对 着 自助 餐 的 主 业 。 我 要 在 这 5 分 
钟 里 说 些 什么 ， 才 能 让 那些 讨厌 我 工作 的 人 改变 想法 呢 ? 

我 开始 即兴 发 挥 , “食物 上 这 只 区 晶 的 大 脑 只 有 10 万 个 神经 元 ; E 
KELE, BRIS ANS, "Pewee, “苍蝇 能 


看 ， 能 飞 ， 可 以 自己 确定 飞行 方向 ， 还 能 砚 食 。 但 最 不 可 思议 的 是 ， 
它 可 以 通过 繁殖 来 进行 自我 复制 。MIT 拥 有 一 台 价 值 1 亿 美元 的 超级 计 
算 机 : 它 消耗 的 能 量 是 兆 瓦 级 的 ， 并 需要 一 台 巨 型 空调 进行 冷却 。 但 
是 ， 超 级 计算 机 的 最 大 成 本 是 要 消耗 大 量 人 力 ， 也 就 是 说 程序 员 要 满 
足 它 对 程序 的 巨大 需求 。 这 人 台 超 级 计算 机 不 能 看 ， 不 能 飞 ， 虽 然 它 能 
与 其 他 计算 机 交流 ， 但 它 不 能 交配 或 自我 复制 。 看 得 出 这 个 场景 描述 
里 有 什么 问题 吗 ? ” 

在 一 段 长 时 间 的 沉默 之 后 ， 一 位 高 级 教员 说 道 : “因为 我 们 还 没有 
编写 视觉 程序 。”( 美 国 国 防 部 最 近 癌 其 战略 计算 计划 注入 了 6 亿美 
元 ， 这 项 计划 在 1983 一 1993 年 间 运 行 ， 但 是 缺少 了 为 自动 要 驶 坦克 创 
建 的 视觉 系统 ) 。( 电 我 的 回答 是 “ 视 你 好 运 ”。 

在 座 的 有 杰 拉 德 : 苏 斯 曼 (Gerald Sussman) ， 他 为 用 人 工 知 能 解 
决 现实 世界 的 问题 做 出 了 几 个 重要 的 应 用 ， 其 中 包括 高 精度 轨道 力学 
积分 系统 ， 为 MIT 致 敬 图 灵 经 典 术 作 的 AI 实现 方法 挽回 了 尊严 (AR 
曾 证 明 图 灵机 ， 即 一 个 思维 实验 ， 可 以 计算 任何 可 计算 的 函数 ) 。“ 那 
需要 多 长 时 间 ? ”我 问 。“ 你 最 好 算 快 一 点 ， 否 则 就 要 有 麻烦 了 。” 我 补 
充 道 ， 然 后 走 到 房间 另 一 头 给 自己 倒 了 一 杯 咖啡 。 我 与 教员 的 对 话 就 
这 样 结束 了 。 

“这 个 场景 出 了 什么 问题 ? "是 我 实验 室 的 每 个 学 生 都 能 回答 的 问 
题 。 但 是 在 午餐 时 间 ， 前 两 排 观 众 都 被 难 倒 了 。 最 后 ， 第 三 排 的 一 名 
学 生 这 样 回答 : “数字 计算 机 是 一 种 通用 设备 ， 它 可 以 被 编程 来 计算 任 
何 东 西 ， 虽 然 效 率 很 低 ， 但 苍蝇 是 一 种 专用 计算 机 ， 可 以 看 和 飞 ， 但 
无 法 平衡 我 的 账户 收 支 。” 这 就 是 正确 答案 。 苍 蝇 眼 中 的 视觉 网 络 进化 
了 数 亿 年 ， 其 视觉 算法 嵌入 了 它 本 身 的 网 络 。 这 就 是 为 什么 你 可 以 利 
用 和 谷 量 眼神 经 回路 的 布线 图 和 信息 流 对 视觉 系统 进行 逆 癌 工程 ， 以 及 
为 什么 你 不 能 在 数字 计算 机 上 这 样 做 ， 因 为 硬件 本 身 需 要 软件 来 指定 
要 解决 什么 问题 。 


我 认 出 了 在 人 群 中 微笑 的 罗 德 尼 . 布 鲁 克 斯 (Rodney Brooks) 。 我 
曾经 邀请 他 参加 在 蕊 了 萨 诸 塞 州 鱼 鱼 角 的 伍兹 霍 尔 市 (Woods Hole) 举 
办 的 计算 神经 科学 研讨 会 。 布 鲁 克 斯 是 澳大利亚 人 ，20 世 纪 80 年 代 ， 
他 是 MIT AI Lab 的 初级 教员 。 那 段 时 间 他 使 用 不 依赖 数字 逻辑 的 构 染 
搭建 了 的 行 昆虫 机 器 人 。 他 后 来 成 了 实验 室 主 管 ， 随 后 又 创建 了 打造 
出 Roombas 的 公司 iRobot ° 


那天 下 午 我 做 演讲 的 房间 很 大 ， 挤 满 了 本 科 生 ， 新 生 代 想 要 展望 
未 来 ， 而 不 是 徘徊 在 过 去 。 我 谈 到 了 一 个 学 习 如 何 玩 西洋 双 陆 棋 的 神 
经 网 络 ， 这 是 一 个 与 伊利 诡 伊 大 学 香槟 分 校 (the University of Illinois 
in Urbana-Champaign) 复杂 系统 研究 中 心 (Center for Complex Systems 
Research) 的 物理 学 家 杰 拉 德 特 索 罗 (Gerald Tesauro) 合作 的 项 目 。 
西洋 双 陆 棋 是 两 名 玩家 之 间 的 比赛 ， 棋 子 根据 掷 般 子 的 点 数 向 前 移 
动 ， 在 途中 可 以 跳 过 对 方 的 棋子 。 与 具有 确定 性 的 国际 象棋 不 同 ， 西 
洋 双 陆 棋 是 由 偶然 因素 控制 的 : 每 次 掷 山 子 的 不 确定 性 都 使 得 对 特定 
棋 步 结果 的 预测 更 加 困难 。 这 是 一 款 在 中 东 地 区 非常 受 欢迎 的 游戏 ， 
其 中 一 些 人 以 玩 高 赌注 的 比赛 为 生 。 


考虑 到 有 1020 个 可 能 的 西洋 双 陆 棋 棋盘 摆 法 ， 基 于 逻辑 和 试探 法 
编写 程序 来 处 理 所 有 可 能 的 摆 法 将 会 是 一 个 不 可 能 完成 的 任务 。 于 
是 ， 我 们 让 神经 网 络 观看 教师 对 局 ， 通 过 模式 识别 来 学 习 下 棋 。( 冉 杰 
拉 德 后 来 让 西洋 双 陆 棋 网 络 通 过 跟 自己 下 棋 进 行 学 习 ， 创 建 了 第 一 个 
世界 冠军 级 别 的 西洋 双 陆 棋 程 序 (第 10 章 会 详细 讲述 这 个 故事 ) e 


演讲 结束 之 后 ， 我 听 说 那天 早上 《纽约 时 报 》 有 一 篇 天 于 政府 机 
构 如 何 大 幅 削 减 人 工 智能 货 金 投入 的 头 厂 文章 。 虽 然 对 主流 AI 研究 人 
员 来 说 ， 寒 冬 已 经 来 临 ， 但 它 并 没有 影响 到 我 和 我 的 研究 组 成 员 ， 对 
我 们 来 说 ， 神 经 网 络 的 春天 才刚 刚 到 来 。 

然而 我 们 新 的 AI 实现 方法 需要 25 年 的 时 间 才 能 在 视觉 、 语 音 和 语 
言 方面 提供 实际 应 用 。 即 使 在 1989 年 ， 我 也 知道 这 需要 很 长 时 间 。 
1978 年 ， 我 还 在 普林斯顿 大 学 读 人 研究 生 时 就 在 想 ， 按 照 摩尔 定律 ， 计 


算 机 的 运算 能 力 会 呈 指 数 级 增长 ， 每 18 个 月 翻 一 番 ， 那 达到 大 脑 的 计 
算 能 力 需 要 多 长 时 间 ? 我 的 结论 是 ， 到 2015 年 会 实现 。 邓 运 的 是 ， 这 
并 没有 阻止 我 继续 探索 。 我 对 神经 网 络 的 信仰 是 基于 我 的 直觉， 即 如 
果 大 自然 解决 了 这 些 问题 ， 我 们 也 应 该 能 够 从 大 目 然 中 学 习 到 同样 的 
解决 方法 。 而 我 不 得 不 耐心 等 待 的 这 25 年 ， 与 自然 界 的 数 亿 年 相 比 ， 
它 仅 仅 只 是 一 个 瞬间 。 

在 视觉 皮层 内 部 ， 神 经 元 呈 多 层次 排列 结构 。 随 着 感官 信息 在 皮 
层 间 层 层 传递 ， 对 世界 的 呈现 也 变 得 越 来 越 抽 象 。 几 十 年 来 ， 随 着 神 
经 网 络 模型 层 数 的 增加 ， 其 性 能 也 在 不 断 提 高 ， 直 到 最 终 达 到 了 一 个 
临界 点 ， 让 我 们 能 够 解决 在 20 世 纪 80 年 代 只 能 幻想 却 无 法 解决 的 问 
题 。 深 度 学 习 可 以 目 动 找 出 能 区 分 图 像 中 不 同 物体 的 优质 特征 的 过 
程 ， 这 就 是 今天 的 计算 机 视觉 比 5 年 前 好 得 多 的 原因 。 

到 2016 年 ， 计 算 机 的 运行 速度 已 经 快 了 上 百 万 倍 ， 计 算 机 内 存 也 
从 兆 字 节 升 级 到 了 太 字 节 (terabytes) 。 与 20 世 纪 80 年 代 只 有 数 百 个 
单元 和 数 千 个 连接 的 网 络 相 比 ， 现 在 模拟 出 的 神经 网 络 具 有 数 百 万 个 
单元 和 数 十 亿 个 连接 。 尽 管 按 照 拥 有 数 千 亿 个 神经 元 和 于 万 亿 个 突 触 
连接 的 人 类 大 脑 的 标准 来 看 ， 这 个 数字 仍然 很 小 ， 但 现 有 神经 网 络 的 
规模 已 经 可 以 在 有 限 领 域 中 进行 原理 的 证 明 。 


基于 深度 神经 网 络 的 深度 学 习 已 经 出 现 了 ,但 在 有 深度 网 络 之 
前 ， 我 们 必须 学 习 如 何 训练 浅 层 网 络 。 


L — 昌 然 直到 1970 年 才 正 式 成 立 ， 麻 省 理工 学 院 人 工 知 能 实验 室 (MITAI Lab) 于 
1959 年 就 开始 了 相关 的 研究 项 目 ， 并 于 2003 年 跟 麻 省 理工 学 院 计 算 机 科学 实验 室 

(LCS) 合并 ,组 建 了 麻 省 理工 学 院 计算 机 科学 与 人 工 智能 实验 室 (CSAIL) 。 为 了 保 
持 简 活 和 一 致 性 ， 我 把 该 机 构 统称 为 “MIT AILab”。 

2 2 [fi] Seymour A. Papert, “The Summer Vision Project,” AI Memo AIM-100, July 1, 
1966, DSpace@MIT, https://dspace.mit.edu/handle/1721.1/6125 » FRYE mM A EEL Z82016% 
He Michaela Ennis 的 说 法 : “A Je HAGAN AE HERS IT A ETE 
期 研究 项 目的 故事 ， 帕 特 里 克 : 温 斯 顿 (Patrick Winston) 教授 每 年 都 会 拿 到 课堂 上 讲 ， 
他 还 说 过 这 个 本 科 生 就 是 杰 拉 德 : 苏 斯 曼 (Gerald Sussman) °” 
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03 
神经 网 络 的 黎明 


任何 人 工 智 能 的 难题 都 可 以 被 解决 。 唯 一 能 证 明 这 一 论断 成 立 的 
是 这 样 一 个 事实 : 自然 界 通过 进化 已 经 解决 了 这 些 难题 。 但 在 20 世 纪 
50 年 代 就 已 经 存在 各 种 上 暗示， 如 果 AfI 研 究 者 能 够 选择 完全 不 同 于 符号 
处 理 的 方式 ， 计 算 机 会 如 何 表现 出 智能 行为 。 

第 一 条 暗示 是 ， 我 们 的 大 脑 是 强大 的 模式 识别 器 。 我 们 的 视觉 系 
统 可 以 在 1/10 秒 内 识别 混乱 场景 中 的 对 象 ， 即 使 我 们 可 能 从 未 见 过 那 
个 特定 的 对 象 ， 也 不 论 该 对 象 在 什么 位 置 ， 多 大 尺寸 ， 以 什么 角度 面 
对 我 们 。 简 而 言 之 ， 我 们 的 视觉 系统 就 像 一 台 以 “识别 对 象 ” 作 为 单一 

和 令 的 计算 机 。 

第 二 条 上 暗示 是 ， 我 们 的 大 脑 可 以 通过 练习 来 学 会 如 何 执行 若干 艰 
巨 的 任务 ， 比 如 弹 钢琴 、 掌 握 物 理学 知识 。 大 自然 使 用 通用 的 学 习 方 
法 来 解决 特殊 的 问题 ， 而 人 类 则 是 顶尖 的 学 习 者 。 这 是 我 们 的 特殊 能 
力 。 我 们 大 脑 皮层 的 结构 整体 上 是 相似 的 ， 并 且 我 们 所 有 的 感受 系统 
和 运动 系统 都 有 深度 学 习 网 络 。 伟 

第 三 条 暗示 是 ， 我 们 的 大 脑 并 没有 充斥 着 逻辑 或 规则 。 当 然 ， 我 
们 可 以 学 习 逻 辑 思 维 或 遵守 规则 ， 但 必须 要 经 过 大 量 的 训练 ， 而 我 们 
当中 的 大 多 数 人 对 此 并 不 在 行 。 这 一 点 可 以 通过 人 们 在 一 个 叫 作 “ 华 生 
选择 任务 ” (Wason selection task) 的 逻辑 文 题 上 的 典型 表现 来 进行 说 
Hj ( 见 图 3-1) e 


图 3-1 这 四 张 卡片 ， 每 张 都 是 一 面 有 数字 ， 另 一 面 涂 满 了 颜色 。 要 测试 以 下 命题 为 真 ， 一 张 卡 
片 在 一 面 显示 为 偶数 ， 那 它 的 另 一 面 就 是 红色 的 。 你 需要 翻 哪 UL) 张 牌 呢 ? 图 片 来 源 :“ 华 
生 选 择 任务 ”， 维 基 百 科 。 

正确 的 选择 是 正面 为 数字 “8”， 背 面 为 棕色 的 卡片 。 在 最 初 的 研究 
中 ， 只 有 10% 的 受 试 者 给 出 了 正确 的 答案 。\ 二 但 是 ， 当 给 这 项 逻辑 测 
试 加 上 了 熟悉 的 背景 信息 时 ， 大 多 数 受 试 者 都 能 很 快 找 出 正确 答案 
( 见 图 3-2) ° 


推理 似乎 是 基于 特定 领域 的 ， 我 们 对 该 领域 越 熟悉 ， 丈 越 容 易 解 
决 其 中 的 问题 。 经 验 使 得 在 一 个 领域 内 进行 推理 变 得 更 容易 ， 因 为 我 
们 可 以 用 已 有 的 例子 来 下 意识 地 得 到 解决 方案 。 例 如 ， 在 物理 学 中 ， 
我 们 通过 解决 各 种 问题 ， 而 不 是 通过 背 育 公 式 ， 来 学 习 电 磁 学 领域 的 
知识 。 如 采 人 类 的 智能 是 完全 基于 逻辑 的 ， 那 么 它 应 该 是 跨 领 域 的 通 
用 祝 能 ， 但 事实 并 非 如 此 。 


图 3-2 每 张 卡片 都 是 一 面 有 一 个 年 龄 数字 ， 另 一 面 印 着 一 种 饮料 。 需 要 翻 哪 UL) 张 牌 才能 检 
验 这 条 法 律 : 如 果 你 正在 喝酒 ， 那 说 明 你 一 定 超过 18 多 了? 图 片 来 源 :“ 华 生 选 择 任务 "， 维 


基 百科 。 
第 四 条 暗示 是 ， 我 们 的 大 脑 充 满 了 数 百 亿 个 小 小 的 神经 元 ， 每 时 
每 刻 都 在 互相 传递 信息 。 这 表明 ， 要 解决 人 工 知 能 中 的 难题 ， 我 们 应 
该 研究 具有 大 规模 并 行 体 系 结构 的 计算 机 ， 而 不 是 那些 具有 冯 : 诺 依 曼 
数字 体系 结构 ， 每 次 只 能 获取 和 执行 一 个 数据 或 指令 的 计算 机 。 是 
的 ， 图 灵机 在 被 给 予 足够 内 存 和 时 间 的 条 件 下 ， 的 确 可 以 计算 任何 可 
计算 的 函数 ， 但 上 自然 弄 必 须 实时 解决 问题 。 要 做 到 这 一 点 ， 它 利用 了 
大 脑 的 神经 网 络 ， 就 像 地 球 上 最 强大 的 计算 机 一 样 ， 它 们 具有 大 量 的 
并 行 处 理 絮 。 只 有 能 有 效 运 行 的 算法 ， 最 终 才 能 在 自然 选择 中 胜出 。 


深度 学 习 的 起 点 


20 世 纪 五 六 十 年 代 ， 在 诺 伯 特 - 维 纳 (Norbert Wiener) 提出 基于 机 
器 和 生物 中 的 通信 和 控制 系统 的 控制 论 之 后 不 久 ，( 电 学界 对 自 组 织 系 
统 开始 产生 了 浓厚 的 兴趣 。 而 其 中 一 个 独创 性 产物 便 是 由 奥利弗 . 塞 弗 
ÆA (Oliver Selfridge) 创造 的 Pandemonium (FLHX) » CO — Ed 
案 识别 设备 ， 其 中 进行 特征 检测 的 “恶魔 ”通过 互相 竞争 ， 来 争取 代表 
图 像 中 对 象 的 权利 (深度 学 习 的 隐喻 ， 见 图 3-3) 。 斯 坦 福 大 学 的 伯 纳 
德 : 威 德 罗 (Bernard Widrow) 和 他 的 学 生 泰 德 : 霍 夫 (Ted Hoff) 发 明 
了 LMS (最 小 均 方 ) SS, QE SH GRR RATE 
适应 信号 处 理 ， 例 如 噪声 消除 、 财 务 预 测 等 应 用 。 在 这 里 ， 我 将 重点 
关注 一 位 先驱 弗兰克 : 罗 和 森 布 拉 特 (Frank Rosenblatt) ” (图 3-4) ， 他 
发 明 的 感知 器 是 深度 学 习 的 前 身 。 亿 


认 知 恶魔 


-— 


图 3-3 Pandemonium“。 奥 利 弗 . 塞 弗 里 奇 认 为 ， 大 脑 中 有 恶魔 负 责 从 感官 输入 中 先后 提取 更 复杂 


的 特征 和 抽象 概念 ， 从 而 做 出 决定 。 如 果 每 个 级 别 的 恶魔 与 前 一 个 级 别 的 输入 相 匹 配 ， 则 会 
激动 不 已 。 做 决定 的 恶魔 需要 衡量 所 有 信息 传递 者 的 兴奋 程度 和 重要 性 。 这 种 形式 的 证 据 评 
估 是 对 当前 多 层次 深度 学 习 网 络 的 隐喻 。 图 片 来 源 : Peter H. Lindsay and Donald A. Norman, 
Human Information Processing: An Introduction to Psychology, 2nded. (New York: Academic Press, 
1977), 图 3-1。 维 基 共 享 资 源 : https://commons.wikimedia.org/wiki/File:Pande.jpg ° 


NEW NAVY DEVIGR| BB 
LEARNS BY DOIN 


Psychologist Shows Embryo 
of Computer Designed to 
Read and Grow Wiser 


WASHINGTON, July. 7 (UPI) 
一 The Navy revealed the em- 
bryo of an electronic computer 
today that it expects will be 
able to walk, talk, see, write, 
reproduce itself and be con- 
scious of its existence, 

The embryo—the Weather 
Bureau's $2,000,000 “704” com- 
puter—learned to differentiate 
between right and left after 
fifty attempts in the Navy's 
demonstration for newsmen., 

The service said it would use 

this principle to build the first 
of its Perceptron thinking ma- 
chines that will be able to read 
‘and write, It is expected to be 
lfinished in about a year at a 
cost of $100,000. 
, Dr. Frank Rosenblatt, de- 
‘signer of the Perceptron, con- 
iducted the demonstration, He 
said the machine would be the 
first device to think as the hu- 
man brain As do human be- 
ings, Perceptron will make mis- 
takes at first, but will grow 
wiser as it gains experience, he 
said, $ 


Dr. Rosenblatt, a research 
psychologist at the -Cornell 
Aeronautical Laboratory, Buf- 
falo, said Perceptrons might be 
fired to the planets as mechani- 
cal space explorers. ' 


图 3-4 深思 中 的 康 奈 尔 大 学 教授 弗兰克 : 罗 森 布 拉 特 ， 他 发 明了 感知 器 。 作 为 深度 学 习 网 络 的 
早期 雏形 ， 感 知 器 是 能 够 将 图 像 进行 分 类 的 简易 学 习 算 法 。 图 中 文章 是 1958 年 7 月 8 日 在 《 纽 
约 时 报 》 上 发 表 的 一 篇 来 自 合 众 国际 社 (UPI) 的 报道 。 感 知 器 在 1959 年 完成 时 预计 花费 了 10 
万 美元 ， 相 当 于 今天 的 100 万 美元 。IBM704 计 算 机 在 1958 年 价值 200 万 美元 ， 相 当 于 现在 的 
2000 万 美元 ， 可 以 实现 每 秒 12000 次 的 乘法 运算 ， 这 在 当时 已 经 是 极 快 的 速度 了 。 不 过 相 比 之 
下 ， 现 在 价格 要 低 得 多 的 三 星 Galaxy S6 手 机 每 秒 可 以 执行 340 亿 次 操作 ， 速 度 要 快 100 万 倍 以 
上 。 图 片 来 源 : George Nagy ° 


从 样本 中 学 习 


尽管 我 们 对 大 脑 功 能 缺乏 足够 的 了 解 ， 但 神经 网 络 的 AI 先驱 们 依 
然 依靠 着 神经 元 的 绘图 以 及 它们 相互 连接 的 方式 ， 进 行 着 艰难 的 摸 
素 。 康 奈 尔 大 学 的 弗兰克 . 罗 森 布 拉 特 是 最 早 模仿 人 体 自动 图 案 识 别 视 
觉 系 统 架 构 的 人 之 一 。 全 他 发 明了 一 种 看 似 简单 的 网 络 感知 器 
(perceptron) ， 这 种 学 习 算 法 可 以 学 习 如 何 将 图 案 进 行 分 类 ， 例 如 识 
别 字 母 表 中 的 不 同 字母 。 算 法 是 为 了 实现 特定 目标 而 按 步骤 执行 的 过 
程 ， 就 像 烘焙 蛋糕 的 食谱 一 样 (关于 算法 ， 将 会 在 第 13 章 中 进行 介 
绍 ) 。 

如 果 你 了 解 了 感知 器 如 何 学 习 图 案 识别 的 基本 原则 ， 那 么 你 在 理 
解 深度 学 习 工作 原理 的 路 上 已 经 成 功 了 一 半 。 感 知 器 的 目标 是 确定 输 
入 的 图 案 是 否 属于 图 像 中 的 某 一 类 别 (比如 猫 ) 。 方 框 3.1 解 释 了 感知 
器 的 输入 如 何 通过 一 组 权重 ， 来 实现 输入 单元 到 输出 单元 的 转换 。 权 
重 是 对 每 一 次 输入 对 输出 单元 做 出 的 最 终 决定 所 产生 影响 的 度量 ， 但 
是 我 们 如 何 找到 一 组 可 以 将 输入 进行 正确 分 类 的 权重 呢 ? 

工程 师 解决 这 个 问题 的 传统 方法 ， 是 根据 分 析 或 特定 程序 来 手动 
设 定 权重 。 这 需要 耗费 大 量 人 力 ， 而 且 往 往 依赖 于 直觉 和 工程 方法 。 
另 一 种 方法 则 是 使 用 一 种 从 样本 中 学 习 的 自动 过 程 ， 和 我 们 认识 世界 
上 的 对 象 的 方法 一 样 。 需 要 很 多 样本 来 训练 感知 器 ， 包 括 不 属于 该 类 
别 的 反面 样本 ， 特 别 是 和 目标 特征 相似 的 ， 例 如 ， 如 果 识 别 目标 是 
猫 ， 那 么 狗 就 是 一 个 相似 的 反面 样本 。 这 些 样本 被 逐个 传递 给 感知 
器 ， 如 果 出 现 分 类 错误 ， 算 法 就 会 自动 对 权重 进行 校正 。 

这 种 感知 器 学 习 算法 的 美妙 之 处 在 于 ， 如 果 已 经 存在 这 样 一 组 权 
重 ， 并 且 有 足够 数量 的 样本 ， 那 么 它 肯定 能 自动 地 找到 一 组 合适 的 权 
重 。 在 提供 了 训练 集中 的 每 个 样本 ， 并 且 将 输出 与 正确 答案 进行 比较 
后 ， 感 知 器 会 进行 递 进 式 的 学 习 。 如 果 答 案 是 正确 的 ， 那 么 权重 就 不 
会 发 生变 化 。 但 如 果 管 案 不 正确 (0 被 误 判 成 了 1， 或 1 被 误 判 成 了 
0) ， 权 重 就 会 被 略微 调整 ， 以 便 下 一 次 收 到 相同 的 输入 时 ， 它 会 更 接 


近 正 确 答案 (见方 框 3.1) 。 这 种 渐进 的 变化 很 重要 ， 这 样 一 来 ， 权 重 
就 能 接收 来 目 所 有 训练 样本 的 影响 ， 而 不 仅仅 是 最 后 一 个 。 


Wo (t) = 0 


感知 器 是 具有 单一 人 造 神 经 元 的 神经 网 络 ， 它 有 一 个 输入 
层 ， 和 将 输入 单元 和 输出 单元 相连 的 一 组 连接 。 感 知 器 的 目标 是 


对 提供 给 输入 单元 的 图 案 进行 分 类 。 输 出 单元 执行 的 基本 操作 
是 ， 把 每 个 输入 Op) 与 其 连接 强度 或 权重 (w) WR, PHR 
积 的 总 和 传递 给 输出 单元 。 上 图 中 ， 输 入 的 加 权 和 (Zi-1 on wi 
xj 与 六 值 9 进 行 比较 后 的 结果 被 传递 给 阶 路 画 数 。 如 果 总 和 超过 
阔 值 ， 则 阶 跃 画 数 输出 1"， 否 则 输出 “0"。 例 如 ， 输 入 可 以 是 图 像 
中 像素 的 强度 ， 或 者 更 常见 的 情况 是 ， 从 原始 图 像 中 提取 的 特 
征 ， 例 如 图 像 中 对 象 的 轮廓 。 每 次 输入 一 个 图 像 ， 感 知 器 会 判定 
该 图 像 是 否 为 某 类 别 的 成 员 ， 例 如 猫 类 。 输 出 只 能 是 两 种 状态 之 
一 ， 如 果 图 像 处 于 类 别 中 ， 则 为 “ 开 *， 否 则 为 < 关 ”。*“ 开 ”和 “ 关 ” 分 
别 对 应 二 进 制 值 中 的 1 和 0。 感 知 器 学 习 算法 可 以 表达 为 ; 


OWi=QOX; 


ó-output-teacher, 


XE, output (输出 值 ) 和 teacher (实际 值 ) 都 是 二 进 制 的 ， 
所 以 根据 差 值 ， 如 果 输 出 正确 ，6=0， 如 果 输 出 不 正确 ，6=+1 或 
者 -1 。 


如 有 果 对 感知 右 学 习 的 这 种 解释 还 不 够 清楚 ， 我 们 还 可 以 通过 男 一 
种 更 简洁 的 几何 方法 ， 来 理解 感知 器 如 何 学 习 对 输入 进行 分 类 。 对 于 
只 有 两 个 输入 单元 的 特殊 情况 ， 可 以 在 二 维 图 上 用 点 来 表示 输入 样 
本 。 每 个 输入 都 十 图 中 的 一 个 点 ， 而 网 络 中 的 两 个 权重 则 确定 了 一 条 
直线 。 感 知 右 学 习 的 目标 是 移动 这 条 线 ， 以 便 清楚 地 区 分 正人 负 样 本 
( 见 图 3-5) 。 对 于 有 三 个 输入 单元 的 情况 ， 输 入 空间 是 三 维 的 ， 感 知 
妖 会 指定 一 个 平面 来 分 隔 正 人 负 训 练 样 本 。 在 一 般 的 情况 下 ， 即 使 输入 
空间 的 维度 可 能 相当 高 且 无 法 可 视 化 ， 同 样 的 原则 依然 成 立 。 
非 线性 


图 3-5 关于 感知 器 如 何 区 分 两 个 对 象 类 别 的 几何 解释 。 这 些 对 象 有 两 个 特征 ， 例 如 尺寸 和 亮 
度 ， 它 们 依据 各 自 的 坐标 值 Qc. y) 被 绘制 在 每 张 图 上 。 左 边 图 中 的 两 种 对 象 加 号 和 正方 
JE) 可 以 通过 它们 之 间 的 直线 分 陋 开 ， 感 知 器 能 够 学 习 如 何 进行 这 种 区 分 。 其 他 两 个 图 中 的 
两 种 对 象 不 能 用 直线 隔 开 ， 但 在 中 间 的 图 中 ， 两 种 对 象 可 以 用 曲线 分 开 。 而 右 侧 图 中 的 对 象 
必须 舍弃 一 些 样本 才能 分 隔 成 两 种 类 型 。 如 果 有 足够 的 训练 数据 ， 深 度 学 习 网 络 就 能 够 学 习 
如 何 对 这 三 个 图 中 的 类 型 进行 区 分 。 

最 终 ， 如 采 解 决 方案 是 可 行 的 ， 权 重 将 不 再 变化 ， 这 意味 春 感 知 
亏 已 经 正确 地 将 训练 集中 的 所 有 样本 进行 了 分 类 。 但 是 ， 在 所 谓 的 “过 
度 拟 合 ” (overfitting) 中 ， 也 可 能 没有 足够 的 样本 ， 网 络 仅仅 记 住 了 
特定 的 样本 ， 而 不 能 将 结论 推广 到 新 的 样本 。 为 了 避免 过 度 拟 合 ， 天 
键 是 要 有 另 一 套 样本 ， 称 为 “测试 集 ”(test set) ， 它 没有 被 用 于 训练 


网 络 。 训 练 结束 时 ， 在 测试 集 上 的 分 类 表现 ， 束 是 对 感知 锅 是 否 能 够 
推广 到 类 别 未 知 的 新 样本 的 真实 度量 。 泛 化 (generalization) 是 这 里 
的 关键 概念 。 在 现实 生活 中 ， 我 们 几乎 不 会 在 同样 的 视角 看 到 同一 个 
对 象 ， 或 者 反复 遇 到 同样 的 场景 ， 但 如 果 我 们 能 够 将 以 前 的 经 验 泛 化 
到 新 的 视角 或 场景 中 ， 我 们 就 可 以 处 理 更 多 现实 世界 的 问题 。 


利用 感知 第 区 分 性 别 


举 一 个 用 感知 器 解决 现实 世界 问题 的 例子 。 想 想 如 果 去 掉头 发 、 
首饰 和 第 二 性 征 ， 比 如 男性 比 女 性 更 为 突起 的 喉 结 ， 该 如 何 区 分 男性 
和 女性 的 面部 。 比 阿 特 丽 斯 :哥伦布 (Beatrice Golomb) 是 1990 年 我 实 
验 室 里 的 一 名 博士 后 研究 员 ， 她 利用 一 个 数据 库 中 的 大 学 生 面 部 照片 
作为 感知 器 的 输入 ， 经 过 训练 的 感知 器 能 以 81% 的 准确 度 对 面部 的 性 
别 进行 分 类 ( 见 图 3-6) 。 人 时 而 对 于 感知 器 难以 分 类 的 面部 ， 人 类 也 
同样 很 难 做 出 区 分 。 我 实验 室 的 成 员 在 同一 组 人 的 面部 识别 上 达到 了 
88% 的 平均 准确 度 。 比 阿 特 丽 斯 还 训练 了 多 层 感知 器 (将 在 第 8 章 中 
介绍 ) ， 其 准确 度 达 到 了 92%， 人 沁 比 我 实验 室 的 成 员 还 要 准确 。 她 在 
1991 年 的 NIPS 大 会 上 发 表 的 演讲 中 总 结 道 : “经 验 可 以 提高 性 能 ， 这 
表明 实验 室 的 研究 人 员 需 要 花 更 多 时 间 来 进行 性 别 鉴 定 的 工作 。” 她 把 
她 的 多 层 感 知 器 叫 作 “SEXNET” (性 别 网 络 ) 。 在 问答 环节 ， 有 人 间 
是 否 可 以 使 用 SEXNET 来 检测 录 装 癖 者 的 面孔 。“ 可 以 。? 比 阿 特 丽 斯 
这 样 回答 。 而 NIPS 大 会 的 创始 人 爱德华 -波斯 纳 (Edward Posner) 辩驳 
34. " 那 就 应 该 叫 DRAGNET QE s» 


图 3-6 这 张 脸 属 于 男性 还 是 女性 ? 人 们 通过 训练 感知 器 来 辨别 男性 和 女性 的 面孔 。 来 自 面部 图 
f& (上 图 ) 的 像素 乘 以 相应 的 权重 (下 图 ) ， 并 将 该 乘积 的 总 和 与 阐 值 进行 比较 。 每 个 权重 
的 大 小 被 描绘 为 不 同 颜色 像素 的 面积 。 正 值 的 权重 (白色) 表现 为 男性 ， 负 值 的 权重 

€) 倾向 于 女性 。 自 子 宽度 ， 鼻子 和 路 之 间 区 域 的 大 小 ， 以 及 眼睛 区 域 周围 的 图 像 强度 对 于 
区 分 男性 很 重要 ， 而 嘴 和 类 骨 周围 的 图 像 强度 对 于 区 分 女性 更 重要 。 图 片 来 源 : M. S. Gray, 
D. T. Lawrence, B. A. Golomband T.J.Sejnowski, “A Perceptron Revealsthe Face of Sex, ” 
Neural Computation7 (1995):1160-1164, 1 ° 


区 分 男性 与 文 性 面部 的 工作 有 趣 的 一 点 是 ， 虽 然 我 们 很 擅长 做 这 
种 区 分 ， ee nelly ee a ene 由 于 没有 单一 特征 
古 决定 性 的 ， 因 此 这 种 模式 识别 问题 要 依赖 于 将 大 量 低 级 特征 的 证 据 
结合 起 来 。 感 知 右 的 优点 在 于 ， 权 重 提供 了 对 性 别 区 分 最 有 帮助 的 面 
部 的 线索 。 令 人 惊讶 的 是 ， 人 中 ( 即 鼻 子 和 嘴唇 之 间 的 部 分 ) 是 最 显 
著 的 特征 ， 大 多 数 男性 人 中 的 面积 更 大 。 有 眼睛 周围 的 区 域 (男性 较 
K) MER (ERK) 对 于 性 别 分 类 也 有 着 很 高 的 信息 价值 。 感 知 


DA 


髓 会 权衡 来 和 目 所 有 这 些 位 置 的 证 据 来 做 出 决定 ， 我 们 也 是 这 样 来 做 判 
定 的 ， 尽 管 我 们 可 能 无 法 摘 述 出 到 底 是 怎么 做 到 的 。 

1957 年 罗 森 布 拉 特 对 “感知 器 收敛 定理 ”的 证 明 是 一 个 突破 ， 他 的 
演示 令 人 印象 深刻 。 在 美国 海军 研究 办 公 室 (Office of Naval 
Research) 的 支持 下 ， 他 搭建 了 一 个 以 400 个 光电 单元 作为 输入 的 定制 
硬件 模拟 计算 机 ， 其 权重 是 由 电机 调整 的 可 变 电 阻 电位 器 。 模 拟 信和 号 
随 着 时 间 连 续 变 化 ， 就 像 黑 胶 唱片 中 的 信号 一 样 。 用 一 组 图 片 集 (其 
中 部 分 图 片 中 有 坦 元 ， 男 外 一 部 分 则 没有 ) 进行 训练 ， 罗 和 森 布 拉 特 的 
感知 如 即使 在 新 图 像 中 也 能 准确 识别 坦克 。 这 一 成 果 经 《纽约 时 报 》 
(STAT RB) ( 见 图 3-4) © 

感知 噩 激发 了 对 高 维 空间 中 模式 分 离 的 美妙 的 数学 分 析 。 当 那些 
点 存在 于 有 数 千 个 维度 的 空间 中 时 ， 我 们 残 无 法 依赖 在 生活 的 三 维 至 
间 里 对 点 和 点 之 间距 离 的 直觉 。 俄 罗斯 数学 家 弗 拉 基 米 尔 ' 瓦 普 尼 交 

(Vladimir Vapnik) 在 这 种 分 析 的 基础 上 引入 了 一 个 分 类 器 ， 称 为 “ 支 
持 向 量 机 ” (Support Vector Machine) , OCHRA, 并 被 大 量 
用 于 机 器 学 习 。 他 找到 了 一 种 自动 寻找 平面 的 方法 ， 能 够 最 大 限度 地 
将 两 个 类 别 的 点 分 开 ( 见 图 3-5， 线 性 ) 。 这 让 泛 化 对 空间 中 数据 点 的 
测量 误差 容忍 度 更 大 ， 再 结合 作为 非 线 性 扩充 的 “内 核 技 巧 ” (kernel 
tick) ， 支 持 向 量 机 算法 就 成 了 机 器 学 习 中 的 重要 支柱 。 人 由) 


馈 低 全 的 神经 网 络 


但 是 有 一 个 限制 ， 使 得 感知 器 的 研究 存在 问题 。 上 面 的 假设 “如 果 
存在 这 样 的 权重 集合 "提出 了 一 个 这 样 的 困惑 ， 即 什么 样 的 问题 可 能 或 
不 可 能 被 感知 器 解决 。 令 人 篮 众 的 是 ， 在 二 维 平面 中 ， 简 单 分 布 的 点 
不 能 被 感知 器 分 开 ( 见 图 3-5， 非 线性 ) 。 事 实证 明 ， 坦 克 感 知 器 不 是 
坦克 分 类 器 ， 而 是 天 气 分 类 器 。( 轩 对 图 像 中 的 坦克 进行 分 类 要 困难 得 


多 ， 而 事实 上 ， 它 不 能 用 感知 器 来 完成 。 这 也 表明 ， 即 使 感知 器 学 到 
了 一 些 东 西 ， 也 可 能 不 是 你 认为 它 应 该 学 到 的 那些 东西 。 压 倒 感 知 器 
的 最 后 一 根 称 草 是 马 文 . 明 斯 基 和 西 摩尔 . 帕 普 特 在 1969 年 发 表 的 数学 专 
著 《 感 知 器 》 (Perceptrons) 。( 电 他 们 明确 的 几何 分 析 表 明 ， 感 知 器 
的 能 力 是 有 限 的 : 它们 只 能 区 分 线性 可 分 的 类 别 ( 见 图 3-5) 。 这 本 书 
的 封面 展示 了 明 斯 基 和 帕 普 特 证 明 的 感知 器 无 法 解决 的 几何 问题 ( 见 
图 3-7) 。 尽 管 在 书 的 末尾 ， 明 斯 基 和 帕 普 特 考虑 了 将 单 层 感知 器 进行 
泛 化 成 为 多 层 感 知 器 的 前 景 ， 但 他 们 怀疑 可 能 没有 办 法 训练 这 些 更 强 
大 的 感知 器 。 不 幸 的 是 ， 许 多 人 对 他 们 的 论断 坚信 不 疑 ， 于 是 这 个 研 
究 领 域 渐渐 被 人 们 遗忘 ， 直 到 20 世 纪 80 年 代 ， 新 一 代 神 经 网 络 研究 人 
员 开始 重新 审视 这 个 问题 。 

在 感知 器 中 ， 每 个 输入 都 独立 地 向 输出 单元 提供 证 据 。 但 是 ， 如 
果 需 要 依靠 多 个 输入 的 组 合 来 做 决定 ， 那 会 怎样 呢 ? 这 就 是 感知 器 无 
法 区 分 螺旋 结构 是 否 相连 的 原因 ;单个 像素 并 不 能 提供 它 是 在 内 部 还 
是 外 部 的 位 置信 息 。 尽 管 在 多 层 前 馈 神 经 网 络 中 ， 可 以 在 输入 和 输出 
单元 之 间 的 中 间 层 中 形成 多 个 输入 的 组 合 ， 但 是 在 20 世 纪 60 年 代 ， 还 
没有 人 知道 如 何 训 练 简单 到 中 间 只 有 一 层 “ 隐 藏 单元 ”(hiddenunits) 的 
神经 网 络 。 


Perceptron: 


图 3-7 《感知 器 》 一 书 的 增订 版 封面 。 两 个 红色 的 螺旋 结构 看 起 来 一 样 ， 但 实际 并 非 如 此 。 上 
方 的 图 案由 两 个 不 相连 的 螺旋 线 组 成 ， 下 面 的 则 是 单一 的 螺旋 线 。 你 可 以 通过 用 铅笔 跟踪 环 
路 的 内 部 路 径 来 验证 。 明 斯 基 和 帕 普 特 证 明了 感知 器 不 能 区 分 这 两 个 对 象 。 你 能 直接 用 肉眼 
看 出 区 别 吗 ? 为 什么 不 能 ? 

弗兰克 - 罗 森 布 拉 特 和 马 文 - 明 斯 基 曾 是 纽约 市 布朗 克 斯 科技 高 中 的 
同班 同学 。 他 们 在 科学 会 议 上 为 各 目 迎 异 的 人 工 智能 研究 方法 展开 了 
辩论 ， 而 与 会 者 更 倾 问 于 明 斯 基 的 方法 。 尽 管 存在 差异 ， 但 他 们 二 人 
对 我 们 理解 感知 器 都 有 痢 重 要 页 献 ， 而 这 正 是 深度 学 习 的 起 点 。 


罗 森 布 拉 特 在 1971 年 死 于 一 次 驾 船 事故 ， 年 仅 43 岁 ， 当 时 正 值 人 
们 几乎 一 边 倒 地 反对 感知 器 的 时 期 。 有 传言 说 他 可 能 是 自杀 ， 但 也 可 
能 只 是 一 次 不 幸 的 出 游 。 思 不 可 否认 的 是 ， 一 个 发 现 了 利用 神经 网 络 
进行 计算 的 新 方式 的 英雄 时 代 已 经 谢幕 ， 又 过 了 整整 一 代 人 的 时 间 ， 
罗 森 布 拉 特 开创 性 努力 的 承诺 才 得 以 实现 。 
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Risk” 中 的 记录 ， 训 练 集中 的 坦克 图 片 样本 都 是 在 阴 天 拍摄 的 ， 无 坦克 样本 图 片 都 是 在 
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ET 


16. 据 加 州 大 学 圣迭戈 分 校 的 同事 Harvey Karten 称 ， 罗 和 森 布 拉 特 是 一 位 经 验 丰富 的 水 
手 。 他 曾 带 领 一 群 学 生 驾 船 出 游 。 船 好 像 撞 到 了 什么 ， 他 从 船上 落 入 水 中 ， 但 当时 没有 


一 个 学 生 能 救 得 了 他 。 (个 人 对 话 ，2017 年 11 月 8 日 。) 


04 
大 脑 式 的 计算 


“如 果 我 有 大 脑 ”， 这 是 1939 年 经 典 音 乐 电 影 《 绿 野 仙 踪 》 (The 
Wizard of Oz) 里 稻草 人 的 唱词 。 但 稻草 人 不 知道 的 是 ， 他 早 就 已 经 有 
大 脑 了 ， 否 则 他 束 没 法 说 话 或 唱歌 。 但 真正 的 问题 是 ， 他 的 大 脑 只 诞 
生 了 两 天 ， 里 面 没 有 经 验 ， 空 衬 如 也 。 随 着 时 间 的 推移 ， 他 对 世界 有 
了 充分 的 认识 ， 最 后 被 公认 为 是 奥 效 国 里 最 聪明 的 人 人， 聪明 到 能 意识 
到 上 自己 的 局 限 。 而 铁皮 人 唱 的 是 , “如 宁 我 能 有 心 ”。 他 和 稳重 人 为 心 
和 脑 哪个 更 重要 而 争论 不 休 。 在 奥 效 国 中 ， 认 知 和 情感 这 两 个 大 脑 的 
产物 在 精妙 的 平衡 中 共同 协作 ， 通 过 不 断 学 习 慢 慢 创 造 出 了 类 人 的 管 
党 。 这 在 真实 世界 里 亦 是 如 此 。 这 部 音乐 剧 也 引出 了 本 章 的 主题 : 如 
RAT EBA ARAL DHE 。 


网 络 模型 能 够 模仿 智能 行为 


AIA HS HS. END ( 见 图 4-1) 在 1979 年 他 组 织 的 一 次 研讨 会 上 相 
14。 因为 对 神经 网 络 模型 的 未 来 抱 有 相似 的 信念 ， 我 们 很 快 就 成 了 朋 
。 后 来 我 们 合作 研究 出 了 一 种 新 型 神经 网 络 模型 ， 叫 作 * 玻 尔 兹 曼 
' (Boltzmann machine) 《将 在 第 7 章 中 进行 讨论 ) ， 并 就 此 打破 了 
阻碍 一 代 人 研究 多 层 网 络 模型 的 僵局 。 


So 


= Rt 


图 4-1 (A) 童年 时 期 的 杰 弗 里 . 埃 弗 里 斯 特 : 辛 顿 (Geoffrey Everest Hinton) 。 他 的 中 间 名 来 自 


一 个 亲戚 乔治 . 埃 弗 里 斯 特 (George Everest) 。 乔 治 曾 在 印度 负责 勘测 工作 ， 并 想 出 了 测量 世 
界 上 最 高 峰 高 度 的 方法 ， 后 来 该 峰 以 他 的 名 字 被 命名 为 Everest 〈 即 珠穆朗玛 峰 ) 。 (B) 1979 
AER SER o 这 两 张 照片 的 拍 摄 时 间 间 隔 了 15 和 年。 图 片 来 源 : UB HEU. 


每 隅 几 年 ， 我 都 会 接 到 杰 弗 里 的 一 个 电话 ， 第 一 句 部 是 “我 想 清 楚 
大 脑 是 怎么 工作 的 了 ”。 每 一 次 ， 他 都 会 告诉 我 一 个 巧妙 的 改进 神经 网 
络 模 型 的 新 方案 。 壬 试 了 多 种 方案 并 进行 mou i 利用 多 
层 神经 网 络 的 深度 学 习 才 在 手机 中 的 语 首 识 别 和 识别 照片 中 的 对 象 等 


方面 达到 了 与 人 类 相近 的 水 平 。 公 众 几 年 前 才 意识 到 深度 学 习 的 这 些 
能 力 ， 虽 然 现在 这 些 已 经 是 众所周知 的 了 ， 但 这 一 过 程 却 花 费 了 相当 
长 的 时 间 。 


态 弗 里 在 剑桥 大 学 获得 了 心理 学 学 士 学 位 ， 并 在 爱丁堡 大 学 获得 

了 人 工 智 能 博士 学 位 。 他 的 论文 导师 是 克里斯托弗 :并 古 特 - 希 金 斯 

(Christopher Longuet-Higgins) 。 和 希 金 斯 是 一 位 态 出 的 化 学 家 ， 他 发 
明了 一 种 早期 的 联想 记忆 网 络 模型 。 那 时 ， 实 现 人 工 智 能 的 主流 方式 
是 基于 使 用 符号 、 逮 辑 和 规则 来 编写 智能 行为 的 程序 ， 认 知心 理学 家 
已 经 采用 这 种 方法 来 理解 人 类 的 认 知 能 力 ， 尤 其 是 语言 。 而 那 时 的 杰 
弗 里 却 在 逆流 而 行 。 没 有 人 能 预见 到 他 有 于 一 日 会 搞 清 楚 大 脑 一 一 或 
者 至 少 类 似 大 脑 的 某 种 东西 一 一 的 工作 原理 。 他 的 讲座 非常 引 人 入 
胜 ， 他 能 够 清楚 地 解释 抽象 的 数学 概念 ， 连 没有 太 多 数学 基础 的 人 都 
能 够 理解 和 掌握 。 他 的 机 智和 不 失 谦 逊 的 幽默 感 令 人 倾倒 。 杰 弗 里 天 
生 也 有 着 激进 的 一 面 ， 特 别 是 当 涉 及 大 脑 的 话题 时 。 

我 们 第 一 次 见面 时 ， 杰 弗 里 还 是 加 州 大 学 圣迭戈 分 校 (UCSD) 
的 一 名 博士 后 研究 员 ， 在 由 大 卫 . 鲁 姆 哈 特 (David Rumelhart) Fle 
斯 :麦克 莱 兰 (James McClelland) 领导 的 并 行 分 布 式 处 理 (Parallel 
Distributed Processing, PDP) 实验 室 工 作 。 杰 弗 里 坚信 ， 将 由 简单 处 
理 单元 构成 的 网 络 、 并 行 工 作 和 从 样本 中 学 习 相 结合 ， 是 理解 认 知 的 
更 好 的 方式 。 当 时 PDP 实 验 室 正在 探索 如 何以 分 布 在 网 络 中 的 大 量 市 
点 活动 的 形式 来 理解 文字 和 语言 ， 而 杰 弗 里 是 其 中 的 核心 人 物 。 


认 知 科学 中 理解 语言 的 传统 方法 是 基于 符号 表征 。 例 如 ,“ 杯 
了 ”这 个 词 是 代表 杯子 概念 的 符号 ， 不 是 特 指 茶 个 杯 于 ， 而 是 指 所 有 杯 
子 。 符 号 的 美妙 之 处 在 于 ， 它 们 让 我 们 能 够 对 复杂 的 概念 进行 压缩 ， 
并 运用 它们 ;而 符号 的 问题 在 于 ， 这 种 过 分 概括 的 表达 形式 使 其 很 难 
在 现实 世界 中 被 精确 地 描述 出 来 一 一 在 现实 世界 中 ， 杯 于 的 样式 、 形 
状 和 尺寸 有 着 无 数 种 可 能 。 虽 然 我 们 大 多 数 人 在 看 到 杯子 的 时 候 都 能 
很 快 认 出 它 是 什么 ,但 没有 一 个 逻辑 程序 能 够 清楚 地 指认 哪个 东西 是 


杯子 ， 哪 个 不 是 ， 也 无 法 识别 出 图 片 中 的 杯子 。 正 义 、 和 平 之 类 的 抽 
象 概念 更 会 让 一 个 计算 机 程序 产生 困惑 。 另 一 种 方法 是 ， 通 过 大 量 神 
经 元 上 的 活动 模式 来 表示 杯子 ， 如 此 一 来 就 可 以 捕捉 概念 之 间 的 相似 
和 差异 点 。 这 赋予 了 符号 可 以 反映 其 含义 的 丰富 的 内 部 结构 。 问 题 在 
于 ， 在 1980 年 ， 还 没有 人 知道 如 何 创建 这 些 内 部 表征 。 

在 20 世 纪 80 年 代 ， 相 信 网 络 模型 能 够 模仿 智能 行为 的 人 并 不 只 
我 和 杰 弗 里 。 全 世界 有 一 些 研究 人 员 ， 虽 然 大 多 都 在 独自 耕耘 ， 但 与 
我 们 有 着 共同 的 信念 ， 坚 持 不 懈 地 开发 着 专门 的 网 络 模型 。 他 们 当中 
的 一 位 ， 克 里 斯 托 弗 : 冯 : 德 :马尔 斯 伯 格 (Christoph von der 
Malsburg) ， 开 发 了 一 种 模式 识别 模型 ， 将 发 射 脉冲 的 人 造 神经 元 连 
接 在 一 起 ， 令 并 证 明了 这 种 方法 可 以 识别 图 像 中 的 人 脸 OA, K 
B KX AY eS FB GE (Kunihiko Fukushima) 发 明了 神经 认 知 机 
(Neocognitron) ， 亿 一 个 基于 视觉 系统 架构 的 多 层 网 络 模型 ， 它 使 
用 了 卷 积 滤波 器 和 简单 形式 的 赫 布 可 塑性 (Hebbian plasticity) ， 这 也 
是 深度 学 习 网 络 的 一 个 直接 的 前 身 。 第 三 个 例子 是 赫尔辛基 大 学 的 电 
S LEMMER RET (Teuvo Kohonen) ， 他 开发 了 一 个 自 组 织 网 
络 ， 可 以 学 习 将 相似 的 输入 通过 不 同 的 处 理 单元 聚 类 到 二 维 上 映射 中 
(例如 可 以 用 来 代表 不 同 的 语音 ) ， 相 似 的 输入 能 够 激活 输出 空间 的 
相 邻 区 域 。 沁 科 霍 宁 网 络 模型 的 一 个 主要 优点 是 ， 它 不 需要 对 每 个 输 
入 的 类 别 进行 标记 (通过 生成 标记 来 训练 监督 网 络 的 花费 十 分 高 
5) 。 科 霍 宁 的 箭 袋 中 只 有 一 支 箭 ， 但 却 被 打磨 得 非常 精良 。 

在 加 州 大 学 洛杉矶 分 校 的 朱 迪 亚 . 珀 尔 (Judea Pearl) 引入 了 将 网 
络 中 的 结 点 用 概率 联系 起 来 的 信念 网 络 ， 比 如 草地 变温 ， 是 因为 喷 水 
器 打开 了 的 概率 ， 或 者 因为 下 雨 了 的 概率 。( 党 这 是 一 个 很 有 前 景 的 将 
概率 网 络 系 统 化 的 早期 尝试 。 虽 然 珀 尔 的 网 络 模型 是 一 个 可 以 用 于 和 追 
踪 世间 因果 关系 的 强大 框架 ， 但 手动 分 配 所 有 所 需 概率 已 经 被 证 明 是 
不 切实 际 的 。 能 够 自动 找到 概率 的 学 习 算 法 依然 有 待 突破 (会 在 本 书 


第 二 部 分 讨论 ) 。 


上 述 几 个 例子 和 其 他 基于 网 络 的 模型 都 有 一 个 共同 的 致命 缺陷 : 
它们 都 不 足以 解决 现实 世界 中 的 问题 。 而 且 ， 开 发 它们 的 先驱 者 很 少 
与 他 人 合作 ， 要 取得 进展 束 更 加 举步维艰 。 如 此 一 来 ， 麻 省 理工 学 
院 、 斯 坦 福 大 学 和 卡 内 基 - 梅 隆 大 学 的 一 流 人 工 关 能 研究 中 心里 ， 束 没 
有 多 少 人 看 好 神经 网 络 了 。 基 于 规则 的 符号 处 理 获 得 了 大 部 分 资金 文 
持 ， 并 完成 了 大 部 分 的 相关 研究 工作 。 


神经 网 络 移 驱 者 


1979 年 ， 杰 弗 里 . 辛 顿 和 布朗 大 学 心理 学 家 和 詹姆斯 .安德森 在 加 利 福 
尼 亚 的 拉 荷 亚 市 组 织 了 联想 记忆 的 并 行 模型 研讨 会 。( 沁 大 多 数 参 与 者 
互相 之 间 都 是 第 一 次 见面 。 我 很 惊讶 自己 能 够 受 邀 参加 研讨 会 ， 我 那 
会 儿 只 是 哈佛 大 学 医学 院 神经 生物 学 的 博士 后 研究 员 ， 而 且 只 在 一 些 
不 太 知名 的 期 刊 上 发 表 了 一 些 关 于 神经 网 络 的 技术 论文 。 杰 弗 里 后 来 
告诉 我 ， 他 曾经 与 大 卫 .马尔 (David Marr)”( 见 图 4-2， 中 间 ) 审核 过 
我 的 背景 。 马 尔 是 神经 网 络 建 模 中 的 一 位 顶尖 人 物 ， 也 是 MIT AI Lab 
的 一 名 有 远见 的 领导 者 。1976 年 ， 我 在 怀俄明 州 杰 克 逊 霍 尔 市 
(Jackson Hole) 的 一 个 小 型 研讨 会 上 第 一 次 遇 到 了 马尔 。 我 们 有 相似 
的 兴趣 ， 他 还 曾 邀 请 我 去 MIT 参 观 ， 并 在 那里 做 一 次 演讲 。 


NI 


图 4-2 (ZE) EERE (Tomaso Poggio) 、 大 卫 : 马 尔 和 弗朗西斯 .: 克 里 克 (Francis 
Crick) 在 加 利 福 尼 亚 远足 的 途中 (照片 拍摄 于 1974 年 ) 。 弗 朗 西 斯 很 享受 与 来 访 者 在 各 种 科 
学 问题 上 进行 长 时 间 的 讨论 。 图 片 来 源 : uU RP ° 

马尔 从 剑桥 大 学 获得 了 数学 学 士 学 位 和 生理 学 博士 学 位 。 他 的 博 
土生 导师 是 生理 学 家 吉尔 斯 - 布 林 德 利 (Giles Brindley) ， 专 门 研究 视 
网 腊 和 色觉 ， 但 在 音乐 理论 和 动 起 功能 障碍 治疗 领域 也 有 较 高 的 知名 
度 。 吉 和 尔 斯 有 一 件 很 出 名 的 逸事 一 一 在 内 华 达 州 拉 斯 维 加 斯 举行 的 美 
国 泌 尿 外 科学 会 (The American Urological Association) 会 议 上 发 表演 
讲 时 ， 他 脱 掉 了 裤子 ， 亲 目 证 明了 化 学 诱导 动 起 的 有 效 性 。 马 尔 的 博 
十 论文 描述 了 一 个 小 脑 神经 网 络 学习 模 型 ， 这 块 区 域 与 快速 运动 控制 
有 天。 他 还 开发 了 海马 体 和 大 脑 皮层 的 神经 网 络 模型 ， 撰 写 的 大 量 相 
关 文 章 也 都 被 证 明 十 分 有 预见 性 。 人 四) 


当 我 第 一 次 在 杰克 过 霍 尔 遇 到 马尔 时 ， 他 已 经 到 了 厅 省 理工 学 
院 ， 当 时 正在 从 事 视 觉 研 究 工 作 ， 并 和 凭借 他 的 个 人 魅力 吸引 到 了 一 批 
有 才华 的 学 生 跟 他 一 起 工作 。 他 人 退 求 一 种 目下 而 上 的 策略 ， 从 视网膜 
开始 入 手 (在 那里 光 被 转换 成 电信 号 ) ， 并 探求 视网膜 中 的 信号 如 何 
编码 对 象 的 特征 ， 以 及 视觉 皮层 如 何 表示 物体 的 表面 和 边界 。 他 和 托 
马 索 : 波 吉 奥 为 立体 视觉 开发 了 一 种 市 有 反馈 连接 的 递归 神经 网 络 模 


型 ， 通 过 检测 双眼 看 到 的 随机 点 立体 图 中 点 的 图 像 的 轻微 横向 位 移 ， 
来 测量 对 象 的 深度 。( 电 双眼 深度 感知 是 三 维 立 体 图 产生 效果 的 基础 。 
( 辐 马 尔 于 1980 年 因 白 血 病 去 世 ， 年 仅 35 岁 。 两 年 之 后 ， 他 的 遗 作 《 视 
觉 》 (Vision) 得 以 发 表 。( 加 具有 讽刺 意味 的 是 ， 尽 管 马尔 在 他 的 视 
觉 研究 中 采取 了 自 下 而 上 的 策略 ， 即 从 视网膜 开始 并 对 视觉 处 理 的 每 
个 后 续 阶 段 进行 建 模 ， 他 的 著作 却 以 倡导 自 上 而 下 的 策略 而 闻名 一 一 
首先 对 要 解决 的 问题 进行 计算 分 析 ， 然 后 构建 算法 来 解决 问题 ， 最 后 
通过 硬件 来 实现 算法 。 然 而 ， 尽 管 这 可 能 是 在 解决 问题 后 对 问题 进行 
解释 的 一 种 有 效 途 径 ， 但 对 于 揭 开 大 脑 秘密 却 算 不 上 是 个 好 方法 。 难 
点 就 在 第 一 步 一 要 判断 大 脑 正在 解决 什么 问题 。 我 们 的 直觉 往往 具 
有 误导 性 ， 特 别 是 在 视觉 方面 ， 我 们 擅长 观察 ， 但 大 脑 对 我 们 隐藏 了 
所 有 的 细节 。 因 此 ， 纯 粹 的 自 上 而 下 策略 问题 重重 ， 但 纯粹 自 下 而 上 
的 策略 也 同样 如 此 (后 面 的 章节 将 探讨 通过 学 习 算法 ， 由 内 而 外 理解 
视觉 工作 原理 的 进展 ) 。 


H BH VS Sirve E vet8 2 JF SMARTS, the 
在 1953 年 与 同 在 剑桥 大 学 的 詹姆斯 - 沃 森 (James Watson) 共同 发 现 了 
DNA 的 双 螺 旋 结 构 。 在 20 多 年 后 的 1977 年 ， 克 里 克 加 入 了 位 于 拉 和 荷 亚 
的 索 尔 克 生 物 研究 所 ， 并 将 研究 重心 转移 到 神经 科学 领域 。 他 会 邀请 
研究 人 员 来 访 ， 并 就 神经 科学 的 许多 课题 ， 特 别 是 视觉 方 辐 ， 进 行 长 
时 间 的 讨论 ， 马 尔 就 是 其 中 一 位 访问 者 。 在 马尔 著作 的 末尾 ， 有 一 段 
苏 格 拉 底 对 话 式 的 局 发 性 讨论 ， 我 后 来 得 知 ， 这 段 对 话 源 目 马尔 与 克 
里 克 的 讨论 。1989 年 我 加 入 索 尔 克 人 研究 所 后 ， 也 开始 意识 到 与 元 里 克 
对 话 的 重要 价值 。 
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1854 年 ， 一 位 自学 成 才 、 有 5 个 女儿 〈 有 几 个 很 有 数学 天 分 ) 的 英 
国教 师 ， 写 了 一 本 名 为 《思维 规律 的 研究 》 (An Investigation of the 


Laws of Thought) 的 书 ， 它 是 “布尔 逻辑 ”的 数学 基础 。 乔 治 .布尔 对 于 
如 何 使 用 逻辑 表达 式 的 见解 是 数字 计算 的 核心 ， 也 是 20 世 纪 50 年 代 人 
TBE RIZE Ao PRB EMM EA TAK AD), TA SEBEUE 
有 一 文 布 尔 曾 经 使 用 过 并 在 家 族 中 代 代 相传 的 笔 。 


在 准备 一 次 演讲 时 ， 我 发 现 布尔 这 本 著作 的 全 称 是 《思维 规律 的 
研究 一 一 逻辑 与 概率 的 数学 理论 基础 》。 虽 然 其 中 让 人 印象 最 深刻 的 
征 对 逻辑 的 洞察 ， 但 这 本 书 对 于 概率 论 也 有 很 多 讨论 。 概 率 论 是 现代 
机 器 学 习 的 核心 ， 在 描述 现实 世界 中 的 不 确定 性 方面 比 逻辑 方法 要 好 
用 得 多 。 所 以 布尔 也 是 机 器 学 习 的 先驱 之 一 。 有 些 讽刺 的 是 ， 他 思想 
中 被 壮 环 的 一 面 ， 在 250 年 后 因为 他 的 芯 孙 才 开 始 绽放 。 布 尔 一 定 会 为 
术 弗 里 感到 矣 做 的 。 
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图 4-3 尽管 乔治 :布尔 的 《思维 规律 的 研究 》 以 研究 思维 的 基础 一 一 逻辑 而 闻名 ， 但 请 注意 ， 
它 也 探讨 了 概率 的 问题 。 这 两 个 数学 领域 分 别 启发 了 在 符号 处 理 和 机 器 学 习 方面 的 人 工 智 能 


研究 方法 。 


利用 神经 科学 理解 大 脑 


在 普林斯顿 大 学 物理 系 攻 读 人 研究 生 时 ， 我 曾 通 过 写 下 非 线 性 神经 
元 交互 网 络 的 方程 式 并 分 析 它 们 来 解决 如 何 理解 大 脑 的 问题 ，( 忆 就 像 
物理 学 家 儿 个 世纪 以 来 使 用 数学 来 理解 重力 、 光 、 电 、 磁 和 核能 的 本 
Ro EKA EE, Ra arte: “亲爱 的 主 ， 让 方程 式 是 线性 
的 ， 噪 声 持 高 斯 分 布 ， 变 量 是 可 分 的 吧 。” 这 些 是 能 产生 分 析 解 法 的 条 
件 ， 但 是 因为 神经 网 络 方程 式 是 非 线性 的 ， 与 之 相关 的 噪声 是 非 高 斯 
分 布 的 ， 而 且 变 量 是 不 可 分 的 ， 所 以 它们 并 没有 明确 的 解 。 除 此 之 
外 ， 当 时 想 要 在 计算 机 上 模拟 大 型 网 络 的 方程 是 不 可 能 的 。 更 令 人 祖 
起 的 是 ， 我 甚至 不 确定 我 的 方程 式 到 展 对 不 对 。 


在 普林斯顿 上 课时 ， 我 发 现 神经 科学 家 们 正在 取得 令 人 振奋 的 进 
展 ， 这 个 年 轻 的 学 科 领 域 45 年 前 才 初 露 端倪 。 在 此 之 前 ， 生 物 学 、 心 
理学 、 解 剖 学 、 生 理学 、 药 理学 、 神 经 学 、 精 神 病 学 、 生 物 工程 学 等 
许多 学 科 都 对 大 脑 进 行 了 研究 。 在 1971 年 神经 科学 学 会 (The Society 
for Neuroscience) 的 第 一 次 会 议 上 ， 弗 农 . 蒙 特 卡 索 (Vernon 
Mountcastle) 亲自 在 门口 迎接 了 每 一 位 与 会 者 。 人 党) 今天 ， 这 个 学 会 有 
4 万 多 名 成 员 ， 大 约 3 万 人 通常 会 出 席 年 会 。 我 于 1982 年 在 约翰 . 霍 普 金 
斯 大 学 的 生物 物理 系 开始 我 的 第 一 份 工作 时 ， 遇 到 了 这 位 传奇 的 神经 
生理 学 家 ， 他 发 现 了 皮层 柱 ， 而 且 有 着 强大 的 人 格 魅 力 。( 赎 我 随后 与 
蒙特 卡 索 密切 合作 ， 计 划 建 立 约翰 . 替 普 金 斯 大 学 的 脑 研究 所 。 这 是 世 
界 上 该 领域 第 一 个 研究 机 构 ， 成 立 于 1994 年 。 

对 于 大 脑 的 研究 存在 着 许多 不 同 的 层级 ( 见 图 4-4) ， 每 个 层级 都 
有 着 重要 的 发 现 ， 而 要 整合 所 有 这 些 知 识 是 一 个 环 手 的 问题 。 这 让 人 
想起 了 关于 矮 胖 子 的 童谣 : 


RRT, BRIR, 


BLT — ARR ° 


BEY, FRS, 


破 镜 难 圆 没 办 法 。 


10 cm 


1cm 


1mm 


100 um 


1 um 


图 4-4 大 脑 研 究 中 的 层级 。 (A) 空间 尺度 范围 从 底部 的 分 子 水 平 到 顶部 的 整个 中 枢 神 经 系统 
(centralnervous systems, CNS) 。 我 们 已 经 对 每 一 个 层级 都 有 了 深入 的 了 解 ， 但 对 具有 少量 
彼此 高 度 相关 的 神经 元 的 网 络 层级 ， 即 由 人 工 神 经 网 络 进行 模拟 的 层级 ， 却 知之 其 少 。 

CR) 突 触 (图 片 下 方 ) 的 示意 图 ， 视 觉 皮层 中 的 简单 细胞 结构 (图 片 中 间 ) 以 及 视觉 皮层 

中 皮层 区 域 的 层次 结构 (图 片上 方 ) 。 图 片 改编 自 : P.S.Churchland, TJ. 


Sejnowski, “Perspectives on Cognitive Neuroscience”, Science, 242(1988):741-745, Figure 1 ° 
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那么 容易 了 。 这 一 过 程 需要 做 加 法 而 不 是 减法 ， 而 这 正 是 我 想 要 实现 
的 。 但 首 移 我 必须 知道 各 个 部 分 都 是 什么 ， 毕 竟 大 脑 的 构成 太 复 杂 
[fe 

查尔斯 - 格 罗 斯 (Charles Gross) 教授 是 在 普林斯顿 研究 猴子 视觉 
系统 的 心理 学 家 。 在 他 的 一 个 研究 生 讲 座 上 ， 我 对 哈佛 大 学 医学 院 的 
大 卫 : 休 伯 尔 和 托 斯 坦 : 威 泽 尔 在 记录 视觉 皮层 里 单个 神经 元 方面 所 取得 
的 进展 印象 深刻 。 如 采 物 理学 不 是 理解 大 脑 工 作 原理 的 捷径 ， 那 么 有 
可 能 走神 经 科学 。 由 于 他 们 在 初级 视觉 度 层 中 的 开创 性 工作 ， 休 伯 尔 
和 威 泽 尔 共同 获得 了 1981 年 的 诺 贝 尔 生理 学 或 医学 奖 。 (他 们 的 发 现 
是 深度 学 习 的 基础 ， 接 下 来 会 在 第 5 章 中 讨论 ， 也 是 第 9 章 的 主题 。) 


大 脑 如 何 处 理 问题 


1978 年 在 普林斯顿 获得 物理 学 博士 学 位 后 ， 我 参加 了 位 于 伍兹 土 
处 市 的 海洋 生物 学 实验 宇 举 办 的 为 期 10 周 的 深度 实验 神经 生物 学 夏季 
课程 。 上 课 的 第 一 天 ， 我 罕 着 一 件 蓝 色 休闲 外 套 和 席 六 得 十 分 平整 的 
卡其 色 裤 子 ， 却 被 课程 讲师 之 一 的 斯 托 里 : 兰 迪 斯 (Story Landis) 带 到 
一 边 ， 她 给 我 天 了 我 人 生 中 的 第 一 条 和 牛仔 迟 。 斯 托 里 当时 是 哈佛 大 学 
神经 生物 学 系 的 教员 ， 后 来 在 美国 国立 卫生 研究 院 (以 下 简称 NIH) 
担任 国家 神经 疾病 和 中 风 人 研究 所 主任 。 一 想起 她 ， 我 就 会 想到 这 件 
H o 


暑期 课程 结束 后 ， 我 在 9 月 份 又 待 了 几 个 星期 ， 想 要 完成 我 之 前 开 
启 的 一 个 项 目 。 效 鱼 和 鲤 形 目 (GRRR) 能 够 感知 非常 微弱 的 电 
场 ， 事实 上 ， 它 们 甚至 可 以 感受 到 横 穿 大 西洋 的 1.5 伏 电池 的 信号 。 赁 
普 这 种 第 六 感 ， 鳃 鱼 可 以 通过 它们 在 地 球 磁 场 中 运动 产生 的 微弱 电信 
号 来 识别 方向 ， 而 这 一 过 程 产生 的 毫 伏 级 的 信号 可 以 被 它们 的 电 接收 
器 感知 。 我 在 项 目 中 获得 了 鳄鱼 电感 受 器 令 人 叹为观止 的 电子 显微镜 
图 像 © 


我 正在 伍 效 霍 尔 Loeb Hall 大 楼 的 地 下 室 拍照 的 时 候 ， 意 外 地 接 到 
了 哈佛 医学 院 神经 生物 学 系 创始 人 斯 蒂 芬 . 库 夫 勒 (Stephen Kuffler) 
的 一 个 电话 。 库 夫 勒 是 神经 科学 领域 的 传奇 人 物 ， 成 为 他 实验 室 里 的 
一 名 博士 后 研究 员 ， 是 我 人 生 的 一 个 转折 点 。 在 搬 去 波士顿 之 前 ， 我 
完成 了 与 导师 艾 伦 : 盖 尔 普 林 (Alan Gelperin) 共同 进行 的 一 个 绘制 大 
里 蛤 的 足 神经 节 代 澳 活 动 的 短期 博士 后 项 目 。( 针 从 那 以 后 ， 我 每 次 吃 
蜗牛 都 会 不 由 自主 地 想到 它 的 大 脑 。 艾 伦 师承 自 一 系列 研究 动物 行为 
神经 基础 的 神经 科学 家 。 我 所 学 到 的 是 ， 无 硝 椎 动物 中 所 谓 的 简单 神 
经 系统 ， 实 际 上 比 进化 阶梯 上 那些 更 高 级 动物 器 官 里 的 更 复杂 ， 因 为 
无 硝 椎 动物 必须 依赖 更 少 的 神经 元 存活 ， 每 个 神经 元 都 是 高 度 特异 化 
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在 库 夫 勒 的 实验 室 里 ， 我 研究 了 牛蛙 交感 神经 节 一 个 突 触 的 迟 慢 
兴奋 性 反应 ( 见 图 4-5) ， 它 的 反应 速度 是 位 于 同一 神经 元 的 另 一 个 突 
和 触 上 的 快速 的 毫秒 级 兴奋 性 反应 的 160000 。( 党 这 些 神 经 节 含有 形成 牛 
峙 自主 神经 系统 输出 的 神经 元 ， 可 以 对 腺 体 和 内 部 器 官 进行 调节 。 在 
刺激 到 突 触 的 那个 神经 后 ， 我 有 充分 的 时 间 去 倒 杯 咖啡 再 返回 座位 
”从 突 触 输入 到 神经 元 达到 峰值 会 花 上 1 分 钟 左 右 ， 然 后 神经 元 会 再 
用 10 分 钟 恢复 到 初 态 。 突 触 是 大 脑 中 基本 的 计算 单元 ， 而 突 触 类 型 的 
多 样 性 不 可 小 凯 。 这 次 经 历 告 诉 我 ， 复 杂 性 可 能 不 是 通 向 理解 大 脑 功 
能 的 坦途 。 为 了 理解 大 脑 ， 我 必须 了 解 ， 大 自然 如 何 通过 进化 早早 就 


解决 了 大 量 的 问题 ， 并 将 这 些 解决 方案 自 下 而 上 地 传递 给 进化 链 上 的 
物种 。 我 们 大 脑 中 的 离子 通道 在 几 十 亿 年 前 的 细菌 体内 就 存在 了 。 


图 4-5 牛蛙 交感 神经 节 细 胞 。 作 为 神经 元 ， 这 些 细胞 会 接受 来 自 消 髓 的 输入 并 激活 牛蛙 皮肤 中 


的 腺 体 。 它 们 体积 很 大 ， 产 生 的 电信 和 号 很 容易 就 能 被 微 电 极 记 录 下 来 《图片 底 部 ) 。 它 们 没 
有 树 突 ， 可 以 通过 神经 《图片 顶 部 的 背景 ) 或 化 学 物质 《图片 顶 部 ， 一 对 微量 移 液 器 ) 进行 
电 刺 激 。 刺 激 神经 会 引发 三 种 不 同 的 突 和 触 信号 : 一 种 是 快速 的 襄 秒 级 兴奋 性 反应 ， 类 似 于 神 
经 肌肉 连接 处 的 兴奋 反应 ; 一 种 是 较 慢 的 兴 理 性 反应 ， 在 10 秒 后 达到 峰值 ， 持 续 1 分 钟 ， 还 有 
一 种 是 迟 慢 兴奋 性 反应 ， 在 1 分 钟 后 达到 上 峰值， 持续 10 分 钟 。 这 说 明 即 使 是 最 简单 的 神经 元 也 
存在 较 宽 的 反应 时 间 跨 度 。 图 片 来 源 : S. W. Kuffler, T. J. Sejnowski, “Peptidergic and 
Muscarinic Excitation at Amphibian Sympathetic Synapses”Journal of Physiology341(1983): 257- 
278, plate I° 


计算 机 科学 的 兴起 


但 是 如 果 物理 学 太 简单 ， 生 物 学 又 过 于 复杂 ， 我 应 该 在 哪里 寻求 
ESQ? 与 物理 学 中 的 力 不 同 ， 大 脑 回路 有 一 个 目的 ， 就 是 解决 计算 
问题 ， 比 如 看 见 和 移动 ， 以 便 在 世界 上 生存 。 即 使 是 一 个 关于 神经 元 
如 何 工作 的 完美 的 物理 模型 ， 也 不 会 告诉 我 们 它 的 目的 是 什么 。 神 经 
元 负责 处 理 携带 信息 的 信号 ， 而 计算 则 是 试图 理解 大 自然 这 一 过 程 中 
缺失 的 环节 。 我 在 过 去 的 40 年 中 一 直 在 追求 这 一 目标 ， 并 开创 了 一 个 
新 的 领域 ， 叫 作 “ 计 算 神经 科学 ”。 

在 加 州 大 学 圣迭戈 分 校 结束 博士 后 研究 员工 作 之 后 ， 杰 弗 里 :六 顿 
返回 了 英格兰 ， 在 剑桥 医学 研究 理事 会 MRC) 的 应 用 心理 学 部 门 找 
到 了 一 个 研究 职位 。1981 年 的 一 天 ， 他 在 凌晨 两 点 接 到 一 个 电话 ， 对 
方 自称 是 加 利 福 尼 亚 州 帕 洛 阿尔 托 市 (Palo Alto) 系统 开发 基金 会 总 
裁 查尔斯 .史密斯 (Charles Smith) 。( 四 史密斯 表示 ， 他 的 基金 会 希望 
为 潜在 的 、 有 前 景 的， 但 风险 较 高 、 成 功 希望 渺茫 的 研究 提供 资金 
而 有 人 强烈 推荐 了 杰 弗 里 。 杰 弗 里 不 确定 这 件 事 可 不 可 靠 。 作 为 我 的 


一 个 好 朋友 ， 杰 弗 里 向 史密斯 提 到 了 我 的 研究 ， 告 诉 他 我 的 研究 成 功 
的 概率 比 他 的 还 要 小 。 

基金 会 是 货真价实 的 ， 还 为 我 们 提供 了 第 一 笔 款项 ， 这 大 大 加 快 
了 我 们 的 研究 进度 。 我 们 可 以 买 得 起 运算 能 力 更 强大 的 电脑 ， 并 吸引 
更 多 的 学 生 加 入 。 在 杰 弗 里 加 入 位 于 匹兹堡 的 卡 内 基 - 梅 隆 大 学 时 ， 他 
用 一 台 炫 酷 的 Lisp 机 外 取代 了 他 的 二 代 苹 果 电 脑 ， 而 在 我 搬 到 巴尔 的 
座 的 约翰 . 霍 普 金 斯 大 学 时 ， 我 短暂 地 拥有 过 比 整个 计算 机 科学 系 还 要 
多 的 计算 能 力 。 固 我 还 购买 了 第 一 个 将 霍 普 金 斯 与 阿 帕 网 
(ARPANET， 互 联网 的 前 身 ) 连接 起 来 的 调制 解 调 器 ， 这 样 杰 弗 里 和 
我 就 可 以 互相 发 送 电子 邮件 了 。 能 够 在 新 的 起 点 有 个 好 的 开端 ， 我 们 
都 感到 很 满意 (Bas) 
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图 4-6 RARA HL-SEBUEI A BER VERE ot SRA (照片 拍摄 于 1980 年 ) 。 这 是 杰 弗 里 和 我 


在 拉 荷 亚 的 并 行 模型 研讨 会 上 见面 的 一 年 之 后 。 又 过 了 一 年 ， 我 在 位 于 巴尔 的 摩 的 约翰 ` 霍 普 


金 斯 大 学 成 立 了 自己 的 实验 室 ， 而 杰 r 弗 里 在 匹兹堡 的 卡 内 基 - 梅 隆 大 学 也 创立 了 他 的 研究 小 
组 。 图 片 来 源 ， 杰 弗 里 - 驻 顿 。 
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20. 1984 年 ， 作 为 美国 国家 科学 基金 会 (NSF) 总 统 青年 研究 员 奖 (Presidential Young 
Investigator Award) 的 获得 者 ， 我 得 到 了 新 成 立 的 计算 机 公司 Ridge 提 供 的 巨大 购买 折 
扣 ， 我 买 的 这 台 计 算 机 拥有 匹敌 VAX 780 的 计算 能 力 ， 后 者 是 当时 学 术 计算 领域 的 骨干 
机 型 。 
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洞察 视觉 系统 


在 我 上 幼儿 园 之 前 ， 最 早期 的 记忆 中 有 这 么 一 个 场景 ”我 盯 着 
一 堆 拼 图 ， 以 形状 、 颜 色 和 图 案 为 线索 来 匹配 它们 。 我 的 父母 会 在 聚 
会 上 夸耀 他 们 还 在 中 中 学 步 的 儿子 能 够 快速 熟练 地 完成 拼图 ， 而 那些 
朋友 常常 对 此 表现 得 很 惊讶 。 我 那 时 还 没有 意识 到 ， 我 的 大 脑 正 在 完 
成 它 最 擅长 的 工作 一 一 通过 模式 识别 来 解决 问题 。 科 学 充满 了 各 种 各 
样 的 问题 ， 就 像 拼 图 中 缺失 的 部 分 和 对 拼合 后 画面 的 模糊 提示 。 大 脑 
如 何 解 决 问题 ， 是 终极 恋 题 。 

效 姆 土 兹 俱乐部 (The Helmholtz Club) 是 南 加 州 视觉 科学 家 们 组 
成 的 一 个 小 团体 。 这 些 科 学 家 来 自 加 州 大 学 圣迭戈 、 洛 杉 矶 和 和 尔 湾 三 
个 分 校 ， 以 及 加 州 理工 学 院 和 南 加 州 大 学 ， 他 们 每 个 月 都 会 找 一 个 下 
AEE AMIN AERIS RES TRI. o Dili KYA EW (Hermann von 
Helmholtz) 是 19 世 纪 的 一 位 物理 学 家 和 医生 ， 他 发 明了 一 套 关于 视觉 
的 数学 理论 和 实验 方法 ， 构 成 了 我 们 当今 理解 视觉 感知 的 基础 。 作 为 
俱乐部 的 秘书 ， 我 要 负责 从 组 织 外 部 邀请 一 位 嘉宾 ， 为 这 15~20 名 成 员 
以 及 他 们 的 客人 进行 演讲 ， 然 后 由 俱乐部 成 员 做 第 二 个 演讲 。 演 讲 是 
互动 性 质 的 ， 大 家 有 充足 的 时 间 进 行 深 入 讨论 。 有 一 次 ， 一 位 外 部 演 
讲 人 对 那些 提出 问题 的 人 表现 出 了 惊讶 : “他 们 还 真是 喜欢 刨 根 问 
底 。” 这 些 每 月 的 例会 让 参与 者 收获 了 顶尖 思维 ， 几 乎 就 是 一 堂堂 视觉 
领域 的 大 师 课 e 


视觉 是 我 们 最 敏锐 ， 也 是 被 研究 得 最 多 的 一 种 感官 。 前 额 下 方 的 
眼睛 市 给 了 我 们 精准 敏锐 的 双眼 深度 知觉 ， 而 我 们 的 大 脑 挛 层 中 一 半 
的 部 分 都 是 负责 视觉 的 。"“ 眼 见 为 实 ” 这 人 句 成 语 束 充分 体现 了 视觉 的 特 


殊 地 位 。 然 而 ， 也 正 古 这 种 民 好 的 视觉 ， 导 致 我 们 完全 忽视 了 视觉 系 
统 背 后 巨大 的 计算 复杂 性 ， 大 自然 经 过 数 亿 年 的 进化 才 解 决 了 这 个 问 
Xi 《如 第 2 章 中 所 述 ) 。 视 觉 皮层 的 组 织 结构 为 最 成 功 的 深度 学 习 网 络 
提供 了 灵感 。 


在 1/10 秒 内 ， 我 们 视觉 皮层 中 的 100 亿 个 神经 元 并 行 工作 ， 能 够 在 
杂乱 的 场景 中 识别 一 个 杯子 ， 即 便 我 们 以 前 可 能 从 未 见 过 那个 杯子 ， 
也 不 论 它 在 什么 位 置 ， 多 大 尺寸 ， 以 什么 角度 面 对 我 们 。 在 普林斯顿 
大 学 读 研 究 生 时 期 ， 我 对 视觉 研究 十 分 着 迷 ， 并 且 在 查尔斯 ' 格 罗斯 的 
实验 室 工作 了 一 个 夏天 。 他 人 研究 过 猴子 的 下 显 叶 皮层 〈 见 图 5-1) ， 并 
在 那里 发 现 了 对 复杂 对 象 ， 如 脸 部 ， 以 及 著名 的 马桶 刷 ， 产 生 反 应 的 
神经 元 o © 

在 哈佛 医学 院 神经 生物 学 系 的 时 候 ， 我 曾 与 斯 蒂 芬 . 库 夫 勒 一 起 工 
作 ， 他 之 前 发 现 了 视网膜 中 的 神经 节 细 胞 编码 视觉 场景 的 方式 。 如果 
不 是 在 1980 年 过 世 ， 他 可 能 会 与 大 卫 . 休 伯 尔 和 托 斯 坦 . 威 泽 尔 一 起 分 享 
1981 年 的 诺 贝 尔 生理 学 或 医学 奖 。 在 1989 年 转 到 索 尔 克 人 研究 所 后 ， 我 
开始 与 弗朗西斯 - 克 里 克 合 作 。 他 于 1977 年 将 研究 重点 从 分 子 遗 传 学 转 
向 神经 科学 ， 并 专注 于 寻找 视觉 意识 的 神经 关联 。 能 够 和 当时 最 伟大 
的 视觉 科学 家 之 一 共事 ， 我 感到 万 分 亦 幸 。 


功能 类 别 判 断 ， 
简单 的 视觉 形式 、 


图 5-1 猛 猴 视觉 系统 的 信息 流动 示意 图 。 箭 头 表 示 视 觉 区 域 的 投影 信息 从 视网膜 开始 ， 到 达 视 
觉 处 理 的 每 个 阶段 都 有 若干 毫秒 的 延迟 。 猕 猴 的 视觉 感知 与 我 们 人 类 的 相似 ， 我 们 也 有 相同 
的 视觉 处 理 阶 段 。LGN (lateralgeniculate nucleus) : 外 侧 膝 状 体 ，V1: 初级 视觉 皮层 ; V2: 
次 级 视觉 皮层 ，V4: 视觉 区 4; AIT 和 PIT: BU PRT REA BRT AC; PFC: 前 额 叶 皮 
层 ; PMC: 前 运动 皮层 ; MC: 运动 皮层 。 图 片 来 源 : S.J.Thorpe and M. Fabre-Thorpe, 
“Seeking Categories in the Brain,” Science291, no. 5502 (2001): 261 ° 
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如 果 我 们 跟随 图 像 生成 的 信号 进入 大 脑 ， 就 可 以 看 到 信和 号 十 如 何 
在 两 个 连续 的 处 理 阶 段 之 间 被 不 断 转换 的 ( 见 图 5-1) 。 视 觉 始 于 视 网 
膜 ， 在 那里 ， 光 感受 万 将 光 转 换 为 电信 号 。 视 网 膜 内 有 两 层 神经 元 ， 
它们 在 空间 和 时 间 维 度 中 处 理 视 觉 信号 ， 最 后 通过 神经 节 细 胞 投射 到 
视神经 。 


图 5-2 (MASI) 斯 带 芬 . 库 夫 勒 、 托 斯 坦 ' 威 泽 尔 和 大 卫 ' 休 伯 尔 。 哈 佛 医学 院 神经 生物 学 系 


成 立 于 1966 年 ， 这 张 照 片 拍摄 于 成 立 后 不 久 。 工 作 日 里 ， 我 从 来 没有 见 过 他 们 中 的 任何 一 个 
人 在 实验 室 里 戴 着 领带 ， 所 以 这 张 照片 一 定 是 在 特殊 场合 拍摄 的 。 图 片 来 源 ， 哈 佛 医 学 院 。 


在 1953 年 一 个 结 末 对 所 有 哺乳 动物 都 成 立 的 经 典 实 验 中 ， 斯 带 分 : 
eR ( 见 图 5-2， 左 ) 记录 了 活 猫 的 视网膜 输出 神经 元 对 光斑 刺激 的 
放电 啊 应 。 他 在 报告 中 写 道 ， 当 光斑 作用 于 某 些 输出 神经 元 的 中 心 区 
域 时 ， 会 出 现 放 电 增 加 的 现象 ， Uc Nr 经 元 的 
中 心 区 域 时 ， 却 出 现 了 放电 减少 的 现象 。 然 而 ， 在 中 心 的 外 沿 区 域 的 


表现 恰恰 相反 : 给 光 中 心 带 有 撤 光 外 沿 ， 撤 光 中 心 带 有 给 光 外 沿 ( 见 
图 5-3) o 神经 节 细 胞 对 光斑 模式 的 反应 被 称 为 < 感受 野 * (receptive 
field) 特性 


中 心 给 光 放 电 中 心 撤 光 放电 


E 3 视网膜 中 神经 节 细 胞 的 响应 特性 。 这 两 个 环形 代表 了 视网膜 中 两 种 对 大 脑 发 送 编码 信 
从 而 让 人 产生 视觉 的 神经 节 细 胞 类 型 。 对 于 中 心 给 光 放 电 (on-center) 类 型 ， 光 斑 投 射 
se “给 光 区 域 ”(+) ， 并 且 外 围 “ 撤 光 区 域 ”(-) 无 光 时 ， 会 产生 一 系列 放电 人 尖峰。 而 中 心 
撤 光 放电 (off- center) 类 型 则 目 反 ， 光 斑 投 射 到 外 圈 (+) ， 并 且 中 心 (C) 无 光 时 ， 会 产生 
一 系列 放电 尖峰 。 光 照 的 变化 包含 了 研究 对 象 周 围 的 移动 刺激 和 对 比 边 界 的 重要 信息 。 这 些 

特性 是 斯 蒂 芬 . 库 夫 勒 于 1953 年 发 现 的 。 


库 夫 勒 的 主要 研究 兴趣 是 神经 元 之 间 突 触 的 特性 。 我 曾经 问 他 ， 
征 什 么 让 他 对 人 研究 视网膜 产生 了 兴趣 。 他 说 ， 他 之 前 的 实验 室 隶 属于 
约翰 - 霍 普 金 斯 大 学 的 威 尔 默 眼科 研究 所 (Wilmer Eye Institute) ， 他 
的 研究 要 是 跟 眼 科 无 关 ， 他 会 对 此 感到 不 安 。 他 在 对 视网膜 中 单个 神 
经 下 细胞 的 研究 中 做 了 些 开创 性 的 工作 ， 随 后 把 这 个 研究 项 目 交 给 了 
他 实验 室 的 两 位 博士 后 一 一 大 卫 : 休 伯 尔 和 托 斯 坦 : 威 泽 尔 ， 并 建议 他 们 
追 中 信号 进入 大 脑 的 过 程 。1966 年 ， 库 夫 勒 和 他 的 博士 后 研究 员 转 到 
哈佛 医学 院 ， 创 立 了 世界 上 第 一 个 神经 生物 学 系 。 
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休 伯 尔 和 威 泽 尔 发 现 ， 皮 层 神 经 元 对 定 同 条 形 光斑 和 高 对 比 度 边 
绿 的 反应 比 点 状 光 斑 更 强烈 。 皮 层 内 的 回路 已 经 对 输入 信和 号 进行 了 转 
换 。 他 们 描述 了 两 种 主要 类 型 的 细胞 ， 定 癌 的 简单 细胞 ， 具 有 像 神经 


方 细胞 那样 的 给 光 和 撤 光 区 域 ( 见 图 5-4) ; 以 及 定向 复杂 细胞 ， 其 神 
经 元 感受 野 里 的 任何 位 置 对 定向 刺激 都 会 产生 同样 的 响应 ( 见 图 5- 


图 5-4 狂 的 初级 视觉 皮层 中 简单 细胞 的 感受 野 。 这 张 图 片 来 目 休 伯 尔 和 威 泽 尔 在 1962 年 发 表 的 
论文 中 关于 发 现 简单 细胞 的 描述 。 十 字 花 代表 视野 中 光斑 会 产生 给 光 响 应 的 位 置 ， 而 三 角形 
不 表 撤 走光 斑 会 产生 撤 光 响应 的 位 置 。 (A) 视网膜 中 的 中 心 给 光 响 应 细胞 (对 比 图 5-3 左 侧 
的 示意 图 ) 。(B) 视 网 膜 细胞 中 的 中 心 撤 光 响 应 细胞 (对 比 图 5-3 右 侧 的 示意 图 ) C-G) 初 
级 视觉 皮层 中 多 样 的 简单 细胞 感受 域 ， 与 视网膜 中 的 感受 野 相 比 ， 所 有 这 些 区 Soltis 长 
了 ， 并 且 给 光 区 和 撤 光 区 的 分 布 更 加 复杂 。 图 片 来 源 : D.H. Hubel and T. N. Wiesel,“Receptive 
Fields, Binocular Interaction and Functional Architecture in the Cat’s Visual Cortex,” Journal of 
Physiology160, no. 1 (1962): 106-154.2, 图 2。 


图 5-5 猫 的 初级 视觉 皮层 中 一 个 复杂 细胞 的 响应 。 这 张 图 片 来 自 休 伯 尔 和 威 泽 尔 在 1962 年 发 表 
的 论文 中 关于 发 现 复 杂 细 胞 的 描述 。 只 要 方向 正确 (图 中 A、B、C 这 三 条 记录 ) ， 一 个 长 而 
罕 的 黑 条 会 引起 大 量 放电 (ERE) 响应 ， 无 论 它 位 于 复杂 细胞 感受 野 (虚线 ) 内 的 哪个 
位 置 。 而 非 最 优 方向 会 导致 较 弱 的 响应 ， 或 根本 没有 响应 (图 中 D、E 这 两 个 记录 ) 。 图 片 来 
iB: D.H. Hubel and T. N. Wiesel, “Receptive Fields, Binocular Interaction and Functional 
Architecture in the Cat's Visual Cortex,” Journal of Physiology160, no. 1 (1962):106-154.2, 图 7。 


视觉 皮层 中 的 每 个 皮层 神经 元 都 可 以 被 认为 是 一 个 视觉 特征 检测 
妖 。 在 视野 中 的 特定 区 域 ， 当 某 些 神经 元 所 偏好 的 特征 信号 输入 高 于 
某 个 国 值 时 ， 这 些 神 经 元 驶 会 被 激活 。 每 个 神经 元 偏好 的 特征 取决 于 
它 与 其 他 神经 元 的 连接 。 哺 乳 动 物 的 新 皮层 (neocortex) 有 6 个 特异 化 
的 层级 。 休 伯 尔 和 威 泽 尔 还 发 现 ， 来 自 两 眼 的 输入 在 皮层 中 间 层 (4) 
左右 交替 排列 ， 这 些 输入 源 目 丘脑 投射 的 中 继 站 。 第 4 层 的 单 目 神 经 元 
投射 到 上 层 (2 和 3) 的 神经 元 ， 它 们 接收 双 目 输入 ， 后 者 既 向 上 投射 


ANS 


到 其 他 皮层 区 域 ， 又 向 下 投射 到 底层 (5306) ， 底 层 又 会 投射 到 下 皮 
层 。 一 段 视神经 元 柱 中 每 个 细胞 的 方 同 偏好 和 主 眼 偏 好 是 相同 的 ， 并 
且 在 整个 皮层 内 平滑 地 变化 ( 见 图 5-6) ° 


图 5-6 初级 视觉 皮层 中 一 段 神经 元 柱 的 立方 模型 。 在 垂直 方向 上 ， 所 有 神经 元 都 具有 相同 的 方 
向 偏好 和 主 眼 优势 。 在 每 平方 毫米 的 皮层 下 ， 有 一 整套 穿 过 皮层 表面 缓慢 变化 的 朝向 (立方 

体 的 前 面 ) ， 以 及 来 自 双 眼 (立方 体 的 右 侧 ) 的 输入 。 图 片 来 源 : D.Hubel, Eye, Brain and 
Vision(New York: WH Freeman and Company, 1988), 131° 


突 触 的 可 塑性 


如 果 一 只 猫 的 一 只 眼睛 在 其 生命 的 最 初 几 个 月 内 被 颖 合 ， 那 么 通 
常 由 双眼 驱动 的 皮层 神经 元 将 变 成 单眼 驱动 ， 只 由 睁 开 的 那 只 眼睛 支 
配 。( 沁 单眼 剥 李 改变 了 初级 皮层 中 突 触 的 强度 ， 初 级 皮层 是 神经 元 首 
次 接收 来 自 两 只 眼睛 的 会 聚 输入 的 地 方 。 在 初级 视觉 皮层 的 皮层 可 塑 
性 关键 期 结束 后 ， 闭 合 的 眼睛 将 再 也 不 能 影响 皮层 神经 元 ， 这 样 就 会 
导致 一 种 “弱视 "症状 。 尽 管 在 婴儿 中 常见 的 未 矫正 、 未 对 准 或 “和 斜 
视 * 状 况 会 大 大 减少 双眼 皮质 神经 元 的 数目 ， 并 且 阻止 了 双眼 深度 知 
觉 ， 人 时 但 如 果 在 关键 期 内 及 时 进行 矫正 眼睛 的 手术 ， 仍 然 可 以 挽救 双 
眼神 经 元 。 

单眼 剥夺 是 发 育 早期 阶段 存在 的 有 关 高 度 可 塑性 的 一 个 例子 ， 因 
为 环境 会 影响 皮层 和 大 脑 其 他 部 位 的 神经 元 之 间 的 突 触 连接 。 这 些 依 
赖 于 活动 的 变化 凌驾 于 所 有 细胞 持续 不 断 的 更 新 之 上 。 尽 管 我 们 大 脑 


中 的 大 部 分 神经 元 与 我 们 出 生 时 的 神经 元 并 无 二 致 ， 时 但 几乎 每 个 神 
经 元 的 组 成 部 分 和 连接 它们 的 突 触 ， 每 天 都 会 发 生 转变 。 磨 损 的 蛋白 
质 会 被 替换 ， 膜 中 的 脂 质 也 会 被 更 新 。 有 了 这 么 多 的 动态 转变 ， 就 很 
难 解释 记忆 是 如 何在 我 们 的 有 生 之 年 得 以 维持 的 了 。 

还 有 另外 一 种 关于 记忆 持久 性 的 可 能 解释 ， 它 们 也 许 就 像 我 们 身 
体 上 的 伤疤 ， 已 经 成 为 我 们 生活 中 过 往事 件 的 标记 。 这 些 标记 并 非 位 
于 不 断 发 生 转 变 的 神经 元 内 部 ， 而 是 位 于 外 部 神经 元 之 间 的 空隙 中 ， 
那里 的 细胞 外 基质 由 类 似 疤痕 组 织 中 胶原 蛋白 的 蛋白 聚 糖 构成 ， 这 种 
基质 是 一 种 可 以 维持 多 年 的 坚韧 的 材料 。( 电 如 果 这 个 猜想 被 证 明 是 真 
实 的 ， 那 就 意味 着 我 们 的 长 期 记忆 被 嵌入 了 大 脑 的 外 骨骼 > 中 ， 而 我 
们 一 直 都 找 错 地 方 了 。 


突 触 含有 数 百 种 独特 的 蛋 日 质 ， 可 以 控制 神经 递 质 的 释放 和 受 体 
神经 元 上 相应 受 体 的 激活 。 在 大 多 数 情 况 下 ， 突 触 强度 可 以 选择 性 地 
在 很 大 范围 内 增加 或 减少 ， 在 皮层 中 ， 这 个 变化 范围 是 100 倍 。 (在 大 
脑 中 发 现 的 突 触 学 习 算法 的 实例 将 在 后 面 的 章节 中 讨论 。) 更 为 显著 
的 是 ， 皮 层 中 会 不 断 形成 新 的 突 触 ， 并 移 除 旧 的 突 触 ， 这 就 让 它们 成 
为 吴 体 中 最 具 活 力 的 细胞 右 。 大 脑 中 有 大 约 100 种 不 同类 型 的 突 触 ， 其 
中 合 氨 酸 钙 皮 层 中 最 常见 的 兴奋 性 神经 递 质 ， 而 改 一 种 氨基 酸 一 一 y- 
A] (GABA) 是 最 常见 的 抑制 性 神经 递 质 。 这 些 神 经 递 质 分 子 
对 其 他 神经 元 的 电化 学 影响 伴随 着 很 宽泛 的 时 间 过 程 。 例 如 ， 第 4 章 中 
讨论 的 牛 峙 交感 神经 季 细 胞 的 突 触 ， 其 啊 应 时 间 斥 度 可 以 从 盈 秒 到 分 
钟 。 
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a CHA (Steven Zucker) 《〈 见 图 5-7) 专注 于 融合 了 计算 机 视 
觉 和 生物 视觉 的 交叉 领域 的 研究 。 从 我 认识 他 起 ， 他 就 在 写 一 本 解释 


视觉 工作 原理 的 书 ， 到 现在 已 经 有 30 多 年 了 。 问 题 在 于 史 带 文 在 视觉 
HARLAN AE, BRS eT TR (Laurence Sterne) 在 小 
说 《项 狄 传 》 中 描写 的 主人 公 项 狄 (Tristram Shandy) 那样 ， 史 蒂 文 
那 本 书 也 随 着 主人 公 的 新 发 现 而 越 变 越 长 。( 电 他 研究 视觉 的 方法 是 基 
于 初级 视觉 皮层 的 精巧 、 规 则 的 结构 ( 见 图 5-6) ， 这 是 一 种 不 同 于 皮 
层 中 任何 其 他 部 位 的 结构 ， 其 中 的 神经 元 以 近似 马赛 克 式 的 排列 方式 
组 织 起 来 ， 这 种 排列 的 几何 解释 还 有 竺 探究 。 计 算 机 视觉 领域 的 大 多 
数 人 研究 人 员 硕 望 通过 将 对 象 从 背景 中 分 割 出 来 ， 并 找到 一 些 可 辨识 的 
特征 来 识别 对 象 。 

史 蒂 文 还 有 更 大 的 野心 ， 想 要 了 解 我 们 如 何 从 表面 阴影 以 及 折 沽 
和 初 皱 中 提炼 出 物体 的 形状 。 在 2006 年 神经 科学 学 会 的 年 会 上 ， 那 个 
把 房子 建 得 像 船 帆 一 样 的 建筑 师 弗 兰 克 : 盖 里 (Frank Gehry) ， 在 接受 
采访 时 ， 被 问 及 他 的 建筑 设计 灵感 从 何 而 来 。( 电 他 回答 说 ， 灵 感 来 自 
对 被 揉 邹 的 纸张 的 观察 。 但 是 ， 我 们 的 视觉 系统 又 是 如 何 通过 补 人 雏 和 
了 明 影 表面 的 复杂 图 案 ， 把 皱 巴 巴 的 纸张 的 复杂 形状 拼合 起 来 的 呢 ? 我 
们 是 如 何 感 知 西班牙 毕 尔 巴 哪 市 (Bilbao) 上 古 根 海 姆 博物 馆 

(Guggenheim Museum, J 15-8) 外 墙 那 多 变 的 形状 的 呢 ? 


Tm 


觉 到 衣服 裙 级 的 形状 。 他 号 
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图 5-7 耶鲁 大 学 史 蒂 文 - 祖 克 ， 光 从 照片 石上 角 打 下 来 。 从 他 毛衣 上 的 阴影 变化 中 ， 你 可 以 察 
后 黑板 上 的 方程 式 解释 了 为 什么 我 们 能 识别 这 种 现象 ， 这 一 灵感 


re 


图 5-8 西班牙 毕 尔 巴 哪 市 的 古 根 海 姆 博物 馆 ， 由 弗兰克 : 盖 里 设计 。 来 自 曲面 的 阴影 和 反射 形 
成 了 强烈 的 结构 感 和 动感 。 可 以 参照 通道 上 的 人 影 大 小 来 体会 这 幢 宏 伟 建筑 的 规模 。 

史 蒂 文 - 祖 克 最 近 已 经 能 够 搞 清楚 我 们 是 如 何在 有 阴影 的 图 像 中 看 
到 裙 皱 的 ， 其 背后 的 解释 是 基于 类 似 山体 等 高 线 图 的 表面 三 维 轮廓 ， 
以 及 图 像 上 等 照度 轮廓 之 间 的 密切 关系 ( 见 图 5-9) 。( 针 这 种 关联 源 
于 表面 的 几何 形状 。 扩 这 解释 了 为 什么 我 们 对 形状 的 感知 几乎 不 受 昭 
明 以 及 物体 表面 性 质 差异 的 影响 。 这 也 可 以 解释 为 什么 我 们 非常 善于 
阅读 轮廓 明显 的 等 高 线 地 图 ， 以 及 为 什么 只 需要 几 条 特殊 的 内 线 就 可 
以 看 出 漫画 中 物体 的 形状 。 


图 5-9 同一 平面 的 等 高 线 图 (EE) 和 等 照度 线 (恒定 亮度 轮廓 线 ， 左 下 ) 。 两 者 在 轮廓 右 侧 
显示 的 临界 点 之 间 产 生 了 相同 的 分 区 。 图 片 来 源 : Kunsberg and Zucker, “Critical Contours: An 
Invariant Linking Image Flow with Salient Surface Organization,” 图 5 ° 


1988 年 ， 西 德 尼 . 莱 基 (Sidney Lehky) 和 我 有 了 一 个 想法 ， 我 们 
也 许可 以 训练 一 个 只 有 一 层 隐 藏 单元 的 神经 网 络 来 计算 阴影 曲面 的 曲 
率 。( 轩 我们 成 功 了 ， 而 且 出 人 意料 的 是 ， 隐 藏 单元 的 表现 跟 简单 细胞 


非常 相似 。 但 仔细 观察 后 ， 我 们 发 现 并 非 所 有 这 些 “ 简 单 细 胞 ?都 是 相 
同 的 。 通 过 查看 它们 对 输出 层 的 投影 一 一 该 输出 层 补 训 练 通过 使 用 学 


习 算 法 ( 见 第 8 章 ) 来 计算 曲率 一 一 我 们 发 现 一 些 隐藏 单元 被 用 于 分 辨 
正 曲率 (GE) 和 负 曲 率 (MIRA) 《〈 见 图 5-10) 。 和 一 些 简单 细胞 一 
样 ， 这 些 单元 是 检测 器 ， 它 们 往往 要 么 是 低 啊 应 ， 要 么 是 高 啊 应 ， 其 
啊 应 活动 呈 双 峰 分 布 。 相 比 之 下 ， 隐 藏 层 中 的 其 他 单元 具有 分 级 啊 应 
的 功能 ， 可 以 像 滤 波 右 一 样 回 输 出 单元 发 送 关 于 曲率 方 辐 和 大 小 的 信 
E e 


图 5-10 阴影 中 的 曲率 。 我 们 的 视觉 系统 可 以 从 边界 轮廓 内 亮度 的 缓慢 变化 中 提取 对 象 的 形 
状 。 你 可 以 根据 阴影 方向 以 及 你 对 照明 方向 的 假设 (通常 假设 为 正 上 方 ) 来 分 辨 图 中 的 突出 
或 是 陷 。 上 下 颠倒 这 幅 图 ， 看 看 它们 是 否 反 过 来 了 。 图 片 来 源 : V. S. Ramachandran, 
“Perception of Shape from Shading,"Nature331, no. 6152(1988), 图 2。 

这 一 结论 令 人 惊讶 : 神经 元 的 功能 不 仅仅 取决 于 它 如 何 对 输入 做 
出 反应 ， 而 且 还 取决 于 它 通 过 目 喘 的 “投射 域 " 油 活 的 下 游 神 经 元 。 一 
个 神经 元 的 输出 一 直 以 来 都 比 它 的 输入 更 难 确 定 ， 但 新 的 遗传 学 和 解 
剖 学 技术 使 得 精确 追踪 下 游 的 轴 突 投射 成 为 可 能 。 新 的 光 遗 传 学 技术 
也 使 得 选择 性 刺激 特定 神经 元 ， 以 探测 其 对 感知 和 行为 的 影响 成 为 可 


能 。 守 即便 如 此 ， 我 们 的 小 规模 神经 网 络 只 能 识别 突起 或 凹陷 的 曲 
率 ， 而 我 们 仍然 不 知道 在 心理 学 文献 中 被 称 为 格式 塔 ” (Gestalts) © 
的 整体 组 织 认 知 是 如 何在 皮层 中 分 布 的 。 


1984 年 ， 史 背 文 ' 祖 克 和 我 曾 被 困 在 丹佛 斯 台 普 顿 (Stapleton) 
际 机 场 ， 我 们 的 航班 因 暴 风 雪 而 延误 了 。 那 会 儿 我 们 对 当时 正 处 于 起 
步 阶 段 的 计算 神经 科学 感到 兴奋 不 已 ， 于 是 盘算 着 创建 一 个 研讨 会 ， 
将 计算 和 实验 研究 人 员 聚 集 在 一 起 。 我 们 决定 把 地 点 定 在 伍兹 霍 尔 ， 
我 曾经 在 那里 参加 过 一 个 神经 生物 学 的 夏季 课程 ， 并 且 在 之 后 好 儿 个 
暑期 中 义 回 去 ， 与 斯 带 分 : 库 夫 勒 一 起 在 海洋 生物 实验 室 做 过 生理 实 
验 。 伍 效 霍 尔 是 鳃 鱼 角 附近 的 一 个 美丽 的 村 子 ， 离 波士顿 不 远 。 多 年 
来 ， 许 多 视觉 研究 领域 的 领军 人 物 都 参加 了 这 个 年 度 研 讨 会 ， 这 对 我 
来 说 是 另 一 个 科学 制高点 。 视觉 皮 层 计 算 理 论 承 诞生 于 这 些 人 研讨 会 ， 
尽管 对 该 理论 的 确认 还 需要 30 年 。 (在 第 9 章 中 ， 我 们 将 看 到 最 成 功 的 
深度 学 习 网 络 的 结构 与 视觉 皮层 的 结构 非常 相似 。) 


贷 完 区 域 的 层级 结构 


乔 恩 . 卡 斯 (Jon Kaas) FARR & (John Allman) 于 20 世 纪 70 
年 代 早 期 ， 在 威斯康星 大 学 神经 生理 学 系 研 究 从 初级 视觉 皮层 接受 输 
入 的 皮层 区 域 ， 发 现 了 不 同 区 域 具 有 不 同 的 特性 。 例 如 ， 在 一 个 他 们 
PR * rn IRI E E" (middle temporal cortex) 或 “MT” 的 区 域 ， 他 们 
发 现 了 一 些 视觉 区 域 ， 它 们 的 神经 元 对 定 同 移动 的 视 沉 刺激 能 够 做 出 
反应 。 奥 尔 受 同 我 提 到 ， 他 们 当时 很 难 让 系 主 任 克 林 顿 : 伍 尔 西 

(Clinton Woolsey) 接受 这 个 发 现 。 卡 斯 和 奥 尔 曼 用 较 先 进 的 记录 技 
术 发 现 了 这 些 纹 外 视觉 皮层 (extrastriate visual cortex) 的 区 域 ， 而 在 
较 早 的 实验 中 ， 伍 尔 西 由 于 使 用 的 记录 技术 相对 粗糙 ， 与 这 一 发 现 欣 
肩 而 过 。( 忆 最 近 的 研究 在 猴子 的 视觉 皮层 中 找到 了 二 十 几 个 视觉 区 
tak o 


1991 年 ， 还 在 加 州 理 工学 院 的 大 卫 . 范 . 艾 森 (David Van Essen) ff 
细 研 究 了 皮层 每 个 视觉 区 域 的 输入 和 输出 ， 并 将 它们 按 层级 排列 了 出 
来 ( 见 图 5-11) 。 这 张 图 有 时 仅仅 被 用 于 说 明 皮层 的 复杂 性 。 它 就 像 
一 座 大 城市 的 地 铁 图 ， 其 中 方 框 代表 地 铁 站 ， 各 种 颜色 的 线 代表 地 铁 
线路 。 视 网 膜 神经 节 细 胞 (RGC) 的 视觉 输入 投射 到 图 表 底部 的 初级 
视觉 皮层 (V1) 。 从 那里 开始 ， 信 号 被 向 上 传送 到 层级 结构 中 ， 每 个 
区 域 专门 负责 视觉 的 不 同方 面 ， 例 如 形态 感知 。 靠 近 图 右 侧 的 层级 示 
意图 顶部 ， 下 显 叶 皮层 的 前 部 、 中 部 和 后 部 (AIT ` CITA PIT) 区 域 
中 的 神经 元 的 感受 野 覆 盖 了 整个 视觉 区 域 ， 并 对 复杂 的 视觉 刺激 如 脸 
部 和 其 他 对 象 做 出 优先 反应 。 虽 然 我 们 不 知道 神经 元 是 如 何 做 到 这 一 
点 的 ， 但 我 们 确实 知道 连接 的 强度 可 以 通过 经 验 来 改变 ， 如 此 一 来 ， 
神经 元 就 可 以 学 习 如 何 对 新 对 象 做 出 反应 。 范 . 艾 森 后 来 去 了 圣路易斯 
的 华盛顿 大 学 ， 在 那里 他 被 任命 为 NIH 资 助 的 人 脑 连接 组 项 目 
(HCP) 的 联合 主任 。 国 他 的 研究 小 组 的 工作 是 使 用 基于 磁 共 振 成 像 
(MRI) 技术 ， 人 来 生成 人 体 大 脑 皮层 中 的 长 程 连接 图 ( 见 图 5- 
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图 5-11 JR A ot PCS] SACER] Fd «UO SACRIS ZS AS (RGC) 映射 到 丘脑 的 
外 侧 膝 状 核 (LGN) ， 其 中 继 细胞 投射 到 初级 视觉 皮层 (V1) 。 皮 层 区 域 的 层级 结构 终止 于 
海马 体 (HC) 。 图 中 所 有 的 187 个 连接 几乎 都 是 双向 的 ， 有 源 自 较 低 区 域 的 前 馈 连接 和 源 自 
较 高 区 域 的 反馈 连接 。 图 片 来 源 : D. J. Fellemanand D. C. Van Essen, “Distributed Hierarchical 
Processing in Primate Visual Cortex," Cerebral Cortex1,no. 1 (1991): 30, 图 4。 


图 5-12 人 脑 连接 组 。 基 于 水 分 子 不 均匀 扩散 的 磁 共 振 成 像 能 够 以 一 种 非 侵入 性 的 方式 追踪 脑 
9 质 中 的 长 程 纤维 束 。 不 同 的 颜色 标注 了 不 同 的 路 径 方向 。 图 片 来 源 ，The Human 


Connectome Project ° 


认 知 神经 科学 的 诞生 


1988 年 ， 我 曾 服务 于 麦克 唐 革 和 皮 尤 基金 会 (McDonnell and Pew 
Foundations) 的 一 个 委员 会 ， 需 要 走访 知名 的 认 知 科学 家 和 神经 科学 
家 ， 就 如何 启 动 一 个 名 为 “ 认 知 神经 科学 ”的 新 领域 听取 建议 。\ 二 该 委 
员 会 驾 转 于 世界 各 个 国家 ， 与 专家 会 面 ， 听 取 他 们 关于 哪些 科学 专题 
最 有 前 途 ， 以 及 在 哪里 建设 新 的 认 知 神经 科学 研究 中 心 的 建议 。8 月 的 
一 个 烈日 炎炎 的 下 午 ， 我 们 在 哈佛 大 学 教员 俱乐部 征询 了 杰 瑞 - 福 多 


(Jerry Foder) 的 意见 ， 他 是 思想 语言 方面 的 专家 ， 也 是 模块 化 思想 
的 倡导 者 。 他 开门 见 山 ， 直 接 乃 斥 了 我 们 的 战略 , “ 认 知 神经 科学 不 是 
一 门 科 学 ， 而 且 永 远 不 会 是 ”。 他 给 人 的 印象 是 ， 他 已 经 阅读 了 关于 视 
觉 和 记忆 的 所 有 神经 科学 论文 ， 但 这 些 文章 都 没有 达到 他 的 标准 。 但 
是 当 他 评论 说 “麦当劳 基金 会 正在 浪费 它 的 资金 时， 帮 克 唐 奈 基金 会 
主席 约翰 : 布 鲁 尔 (John Bruer) 立刻 就 指出 ， 福 多 把 他 的 基金 会 和 街 
头 制作 汉堡 包 的 地 儿 搞 混 了 o 

福 多 丝毫 不 为 所 动 。 他 解释 了 为 什么 头脑 应 该 被 当 作 运行 智能 计 
算 机 程序 的 模块 化 符号 处 理 系统 。 加 州 大 学 圣迭戈 分 校 的 哲学 家 帕 特 
里 夏 . 丘 奇 兰 德 (Patricia Churchland) 问 他 的 理论 是 否 也 适用 于 
猫 。“ 是 的 ，” 福 多 说 ,“ 狐 正在 运行 猫 程序 。” 但 是 当 NIH 人 研究 视觉 和 记 
忆 的 神经 科学 家 莫 带 默 . 米 什 金 (Mortimer Minshkin) 让 他 介绍 他 自己 
的 实验 室 的 发 现时 ， 福 多 嘟 吐 着 说 了 一 些 我 听 不 太 懂 的 话 ， 好 像 是 天 
于 在 语言 实验 中 的 事件 相关 电位 。 邓 运 的 是 ， 那 一 刻 ， 消 防 演 习 的 警 
铃 啊 了 ， 我 们 都 被 要 求 去 室外 等 待 。 站 在 院子 里 ， 我 听 到 米 什 金 对 福 
多 说 : “那些 都 是 对 虫 小 技 寻 了 。?” 滨 习 结 束 后 ， 福 多 承 再 没 出 现 。 

认 知 神经 科学 已 经 发 展 成 为 一 个 重要 的 领域 ， 吸 引 了 各 个 科学 领 
域 的 很 多 研究 人 员 ， 包 括 社 会 心理 学 和 经 济 学 ， 这 些 领 域 以 前 与 神经 
科学 很 少 有 或 没有 任何 直接 联系 。 使 这 一 切 成 为 可 能 的 是 在 20 世 纪 90 
年 代 早 期 采用 的 非 侵 入 式 大 脑 活 动 可 视 化 方法 ， 尤 其 是 功能 磁 共 振 成 
像 (fMRI) ， 其 目前 的 空间 分 辨 率 为 几 毫 米 。fMRI 生 成 的 庞大 的 成 像 
数据 集 被 交 由 新 的 计算 方法 进行 分 析 ， 如 独立 分 量 分 析 (将 在 第 6 章 讨 
论 ) 。 

HT OUEST DU Roce, FFA MRE SARA RCU 
格 控制 ，fMRI 所 测量 的 血 氧 水 平 依赖 (BOLD) 信号 就 被 当 作 大 脑 活 
动 的 替代 指标 。 血 液 中 的 含 氧 量 改变 了 它 的 磁性 ， 可 以 用 fMRI 进 行 无 
创 监测 ， 并 且 以 几 秘 的 时 间 分 辨 率 产 生 大 脑 活动 的 动态 图 像 。 这 种 时 


间 分 辨 率 足 够 追踪 在 实验 过 程 中 大 脑 的 哪些 部 分 在 活动 。fMRI 已 经 被 
用 于 探索 视觉 层级 结构 不 同 部 分 的 时 值 整合 。 

普林斯顿 大 学 的 尤 里 : 哈 森 (Uri Hasson) 进行 了 一 项 fMRI 实验 ， 
站 在 探究 视觉 层级 的 哪些 部 分 涉及 处 理 不 同 长 度 的 电影 。( 电 查理 : 卓 别 
Pk (Charlie Chaplin) 的 无 声 电 影 被 剪辑 为 4 秒 、12 秒 和 36 秒 的 片段 呈 
现 给 受 试 者 。 在 4 秒 的 剪辑 中 ， 受 试 者 可 以 识别 一 个 场景 ;12 秒 时 ， 可 
以 看 清 连 接 的 动作 ， 在 36 秒 的 长 度 下 ， 能 够 看 到 一 个 有 开头 和 结尾 的 
故事 。 在 层级 底部 的 初级 视觉 皮层 中 的 fMRI 反应 ,无论 在 什么 样 的 时 
间 尺 度 上 ， 都 强大 且 可 靠 。 但 在 视觉 等 级 的 较 高 层次 上 ， 只 有 较 长 的 
时 间 尺 度 才 能 引起 可 靠 的 反应 ， 而 位 于 层级 顶层 的 前 额 叶 皮层 区 需 
最 长 的 时 间 间 隔 。 这 与 其 他 实验 结果 一 致 ， 即 工作 记忆 也 按照 层级 分 
布 。 工 作 记 忆 是 我 们 掌握 信息 的 能 力 ， 比 如 要 记 住 的 电话 号 码 ， 以 及 
我 们 正在 处 理 的 任务 的 要 素 。 最 长 的 工作 记忆 时 间 尺 度 同 样 位 于 前 额 
叶 皮 层 。 

作为 神经 科学 中 最 让 人 兴奋 的 学 术 领 域 之 一 ， 对 大 脑 学 习 行 为 的 
研究 可 以 在 不 同 的 层面 进行 ， 从 分 子 层面 到 行为 层面 。 


1. 由 克 里 克 、 拉 马 钱 德 兰 〈V S. Ramachandran) 和 戈 登 . 肖 (Gordon Shaw) 在 20 世 纪 
80 年 代 建 立 的 亥 姆 霍 效 俱乐部 持续 活跃 了 20 多 年 。 关 于 它 的 历史 ， 可 以 参阅 C. Aicardi, 
“Of the Helmholtz Club, South-Californian Seedbed for Visual and Cognitive Neuroscience， 


and Its Patron Francis Crick,” Studies inHistory and Philosophy of Biological and Biomedical 
Sciences45, no. 100 (2014):1-11 ° 


m 一 位 满意 的 与 会 者 的 话 来 说 : “我 从 遇 到 的 每 个 人 身上 都 学 到 了 很 多 。 我 对 采纳 
别人 的 想法 一 点 也 不 觉得 难为 情 。.……. 对 我 来 说 ， 最 有 收获 的 学 习 经 历 台 是 这 个 亥 姆 霍 
效 俱乐部 。 我 不 知道 你 是 否 听 说 过 这 个 团体 。.……. 他 们 大 概 有 20 个 人 。 我 从 来 没有 错过 
一 次 他 们 的 例会 。 我 还 得 找 人 替 我 上 课 ， 这 个 会 比 我 的 课 还 重要 ， 我 绝对 不 能 错过 。” 
Carver Mead, in James A. Anderson and Edward Rosenfeld, eds., Talking Nets: An Oral 
History of Neural Networks(Cambridge, MA: MIT Press, 2000), 138 ° 


3. R. Desimone, T. D. Albright, C. G. Gross, and C. Bruce, “Stimulus-Selective Properties 
of Inferior Temporal Neurons in the Macaque,” Journal of Neuroscience4, no. 8 (1984): 2051— 


m A 


10. 


11. 


12. 


13. 


14. 


2062. 查尔斯 . 格 罗斯 实验 室 的 许多 研究 人 员 都 留 了 胡子 ， 因 此 ， 对 马桶 刷 做 出 反应 的 视 
觉 皮层 中 的 神经 元 可 能 是 胡须 细胞 。 


David Hubel, Eye, Brain, and Vision(New York: W. H. Freeman, 1988), 191—216. 


猫 的 关键 时 期 从 3 周到 几 个 月 不 等 ， 而 人 类 是 从 几 个 月 到 七 八 岁 不 等 。 关 键 期 的 结 
能 不 会 像 以 前 认为 的 那样 突然 ， 在 经 过 高 强度 的 练习 后 ， 接 受过 斜视 矫正 的 成 人 仍 
然 获得 立体 视觉 的 能 力 。 参 阅 Susan R. Barry, Fixing My Gaze: A Scientist’s Journey 
into Seeing in Three Dimensions(New York: Basic Books, 2009)。 当 我 还 是 普林斯顿 大 学 的 


研究 生 时 ， 就 认识 了 Barry， 她 现在 被 叫 作 “立体 苏 ”(Stereo Sue) ° 

这 条 规则 也 存在 一 些 例外 的 情况 .海马 体 中 苍 状 回 的 颗粒 细胞 和 唱 球 中 的 神经 元 在 
我 们 的 一 生 当 中 都 会 不 断 更 新 。 人 参阅 Michael Specter, “Rethinking the Brain: How the 
Songs of Canaries Upset a Fundamental Principle of Science,” NewYorker, July 23, 2001, 
http://www. michaelspecter.com/2001/07/rethinking-thebrain/ ° 
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Terrence Sejnowski, *How Do We Remember the Past?" in John Brockman, ed.,What We 
Believe but Cannot Prove: Today's Leading Thinkers on Science in the Age of 
Certainty(London: Free Press, 2005), 97—99; and R. Y. Tsien, “Very Long Term Memories 
May Be Stored in the Pattern of Holes in the Perineuronal Net," Proceedings of the National 
Academy of Sciences of the United States of America110, no. 30 (2013): 12456-12461. 
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件 ， 依 据 主人 公 脑 海中 事件 出 现 的 顺序 来 叙事 ， 而 非 按照 传统 的 时 间 顺 序 。 一 一 译 者 注 
关于 盖 里 演讲 的 概述 ， 可 以 参阅 Shelley Batts, “SFN Special Lecture:Architecture 
Frank Gehry and Neuro-Architecture,” Science Blogs, posted October 15, 2006, 
http://scienceblogs.com/retrospectacle/2006/10/15/sfn-special-lecturearchitect-1/ ° 


pu 


B. S. Kunsberg and S.W. Zucker, “Critical Contours: An Invariant Linking Image Flow 
with Salient Surface Organization," May 20, 2017, https://arxiv.org/pdf/1705.07329.pdf. 


在 山脉 的 等 高 线 图 上 看 到 的 表面 的 三 维 轮廓 ， 和 图 像 上 的 等 照 轮 廓 之 间 的 联系 ， 可 
以 用 表面 上 的 临界 点 和 梯度 流 的 几何 形状 来 解释 ， 后 者 被 叫 作 *Morse Smale 复 形 ”。 
S. R. Lehky and T. J. Sejnowski, “Network Model of Shape-from-Shading: Neural 


Function Arises from Both Receptive and Projective Fields,” Nature333, no. 6172(1988): 
452-454. 


Terrence J. Sejnowski, “What Are the Projective Fields of Cortical Neurons?” in J. Leo 
van Hemmen and Terrence J. Sejnowski, eds. 23 Problems in SystemsNeuroscience(New York: 
Oxford University Press, 2005), 394—405. 


15. 


16. 


17. 


18. 


19. 


20. 


格式 塔 学 派 主张 人 脑 的 工作 原理 是 基于 整体 的 ， 其 效果 不 同 于 其 各 个 部 件 功能 的 总 
和 “。 一 一 译 者 注 
C. N. Woolsey, “Cortical Localization as Defined by Evoked Potential and Electrical 


Stimulation Methods,” in G. Schaltenbrand and C. N. Woolsey (eds.),Cerebral Localization 
and Organization(Madison: University of Wisconsin Press,1964), 17-26; J. M. Allman and J. 
H. Kaas, “A Representation of the Visual Field in the Caudal Third of the Middle Temporal 
Gyms of the Owl Monkey (Aotustrivirgatus)," Brain Research31 (1971): 85-105. 


L. Geddes, *Human Brain Mapped in Unprecedented Detail: Nearly 100 Previously 
Unidentified Brain Areas Revealed by Examination of the Cerebral Cortex," Nature, July 20, 
2016. doi:10.1038/nature.2016.20285. 


其 中 一 种 技术 弥散 张 量 成 像 (diffusion tensor imaging, DTI) ， 能 够 追踪 构成 
大 脑 皮层 中 白质 的 轴 突 的 方向 。 
Elizabeth Penisi, “Two Foundations Collaborate on Cognitive Neuroscience,”Scientist, 


October 1989, http://www.the-scientist.com/?articles.view/articleNo/10719/title/Two- 
Foundations-Collaborate-On-Cognitive-Neuroscience/. 


U. Hasson, E. Yang, I. Vallines, D. J. Heeger, and N. Rubin, “A Hierarchy of Temporal 
Receptive Windows in Human Cortex,” Journal of Neuroscience28, no.10 (2008): 2539-2550. 
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要 事 年 表 


1949 年 


唐纳德 : 赫 布 (Donald Hebb) 出 版 了 《行为 的 组 织 》 (The 
Organization of Behavior) 一 书 ， 提 出 了 有 关 突 触 可 塑性 的 赫 布 定律 
(Hebb Rules) 。 


1982 年 


约翰 : 霍 普 菲尔德 (John Hopfield) 发 表 了 文章 《具有 突 发 性 集体 
计算 能 力 的 神经 网 络 和 物理 系统 》 (Neural Networks and Physical 
Systems with Emergent Collective Computational Abilities) ， 其 中 介 


ATEREA (Hopfield net) o 
1985 年 


杰 弗 里 .: 辛 顿 和 我 发 表 了 文章 《 玻 尔 兹 曼 机 的 一 种 学 习 算 法 》 (A 
Learning Algorithm for Boltzmann Machines) ， 这 是 马 文 . 明 斯 基 和 
西 摩尔 - 帕 普 特 被 广泛 接受 的 观点 的 反例 ， 后 者 认为 为 多 层 网 络 开发 学 
习 算 法 是 不 可 能 的 。 

1986 年 


大 卫 . 鲁 姆 哈 特 (David Rumelhart) 和 杰 弗 里 . 辛 顿 发 表 了 文章 

《通过 误差 传播 学 习 内 在 表征 》 (Learning Internal Representations 

by Error-Propagation) ， 其 中 介绍 了 当前 用 于 深度 学 习 的 “ 反 
传 ” (backprop) 学 习 算 法 。 


1988 年 


理 查 德 . 萨 顿 (Richard Sutton) 在 《机 器 学 习 》 杂 志 上 发 表 了 文 
章 《 通 过 时 序 差分 方法 学 习 预 测 》 (Learning to Predict by the 
Methods of Temporal Differences) 。 时 序 差 分 学 习 现 在 被 认为 是 在 所 
有 大 脑 中 进行 奖励 学 习 的 算法 。 
1995 年 


安东尼 :贝尔 (Anthony Bell) 和 我 发 表 了 文章 《一 种 用 于 盲 分 离 
和 盲 解 卷 积 的 信息 最 大 化 方法 》 ( An Information-Maximization 
Approach to Blind Separation and Blind Deconvolution) ， 描 述 了 一 
种 用 于 独立 分 量 分 析 (Independent Component Analysis，ICA) 的 无 
监督 算法 。 


2013 年 


杰 弗 里 . 辛 顿 在 2012 年 NIPS 会 议 上 发 表 的 论文 《深度 卷 积 神经 网 络 
下 的 ImageNet 分 类 》 ( ImageNet Classification with Deep 
Convolutional Neural Networks) ， 将 图 像 中 对 象 分 类 的 错误 率 降低 
到 了 18%。 


2017 年 
深度 学 习 网 络 程序 AlphaGo， 击 败 了 围棋 世界 冠军 柯 洁 。 


在 一 个 拥挤 的 鸡尾酒 会 上 ， 当 空气 中 弥漫 厦 其 他 人 谈 笑 的 嘲 杂 声 
时 ， 想 要 听见 你 面前 的 人 说 话 是 很 费劲 儿 的 。 你 的 两 只 耳 坟 有 助 于 你 
把 听力 集中 在 正确 的 方 辐 ， 而 你 的 记忆 可 以 填补 没 听 清 的 谈话 内 容 。 
现在 想象 一 下 ， 房 间 里 正在 举行 一 个 有 100 人 参加 的 鸡尾酒 派对 ， 四 周 
还 有 100 个 以 任意 方向 排 布 的 麦 元 风 。 每 个 麦克 风 都 会 采集 所 有 人 的 声 
首 ， 但 是 每 个 麦 殉 风 针 对 每 个 人 采集 的 声音 振幅 比 不 同 。 是 否 有 可 能 
设计 出 一 种 算法 ， 将 每 种 声音 分 离 成 单独 的 输出 声 道 ? 或 者 更 复杂 
点 ， 如 果 声 音 来 源 是 未 知 的 ， 比 如 混合 了 音乐 、 担 手 声 、 目 然 声音 ， 
甚至 是 随机 的 噪声 呢 ? 这 束 是 所 谓 的 * 言 源 分 离 问 题 ”( 见 图 6-1) e 

1986 年 4 月 13 一 16 日 ， 在 犹他 州 雪 乌 城 举办 的 神经 网 络 计算 会 议 ， 
也 就 是 AIP 会 议 (NIPS 大 会 的 前 身 ) 上 ， 出 现 了 一 个 题 为 《利用 神经 
网 络 模 型 进行 空间 或 时 间 自 适应 信号 处 理 》 (Space or Time Adaptive 
Signal Processing by Neural Network Models) 的 墙报 。 它 的 作 考 和 詹 妮 : 
RF (Jeanny Herault) MEEME -FER (Christian Jutten) 使 用 了 

-种 学 习 算法 ， 对 输入 给 神经 网 络 模型 的 混合 正弦 波 ( 均 为 纯 频率 ) 
进行 了 言 分 离 ， 并 指出 了 一 类 新 的 无 监督 学 习 算法 。( 沁 虽然 当时 还 不 
知道 是 否 存 在 一 种 可 以 言 分 离 其 他 类 型 信号 的 通用 解决 方案 ， 但 十 年 
之 后 ， 安 东 尼 :贝尔 和 我 发 现 了 一 种 可 以 解决 一 般 问题 的 算法 。 人 四 


图 6-1 盲 源 分 离 。 凯 尔 和 斯 坦 在 有 两 个 麦克 风 的 房间 里 同时 说 话 。 每 个 麦克 风 会 从 扬声器 以 及 
房间 墙壁 反射 的 声音 里 采集 信号 。 该 实验 的 挑战 就 在 于 ， 如 何在 对 信号 的 相关 信息 一 无 所 知 
的 情况 下 将 两 个 声音 彼此 分 开 。 独 立 分 量 分 析 是 一 种 学 习 算法 ， 可 以 在 不 了 解 信息 源 的 情况 
下 解决 这 个 问题 。 
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感知 器 是 一 个 有 单一 神经 元 的 神经 网 络 。 复 杂 度 略 高 于 感知 器 的 
次 简单 网 络 体系 结构 在 输出 层 中 有 多 个 模型 神经 元 ， 每 个 输入 神经 元 
都 会 连接 到 一 个 输出 神经 元 ， 该 结构 将 输入 层 中 的 模式 转换 为 输出 层 
中 的 模式 。 这 个 网 络 不 仅 可 以 对 输入 进行 分 类 ， 还 可 以 学 习 如 何 进行 
盲 源 分 离 。 

1986 年 ， 安 东 尼 :贝尔 ( 见 图 6-2) 还 是 一 名 在 苏黎世 联邦 理工 学 
be (ETH Zurich) 进行 署 期 实习 的 本 科 生 。 他 很 早 就 对 神经 网 络 产 生 


了 兴趣 ， 曾 前 往日 内 瓦 大 学 聆听 来 目 神经 网 络 领域 前 幸 们 的 4 个 演讲 。 
在 布鲁塞尔 大 学 获得 博士 学 位 后 ， 他 于 1993 年 前 往 拉 荷 亚 ， 加 入 了 我 
的 实验 室 ， 担 任 博士 后 研究 员 。 


图 6-2 正在 独立 思考 的 安东尼 :贝尔 ， 当 时 他 正在 从 事 独 立 分 量 分 析 研 究 (照片 拍摄 于 1995 年 
前 后 ) 。 某 个 领域 的 专家 试图 解决 一 个 问题 时 ， 常 常 无 法 实现 突破 ， 有 时 反倒 是 第 一 次 接触 
这 个 问题 的 人 能 找到 新 方法 并 解决 问题 。 安 东 尼 和 我 发 现 了 一 种 迭代 算法 来 解决 言 源 分 离 问 
这 个 算法 现在 已 经 是 工程 学 教科 书 里 的 内 容 ， 并 且 有 了 数 千 个 应 用 实例 。 图 片 来 源 ， 安 
^. JE: Ul 7e 

“通用 信息 最 大 化 学 习 原 理 ” (general infomax learning principle) 
最 大 限度 地 提高 了 通过 网 络 传递 的 信息 量 。 近 安东尼 当时 正在 研究 树 
突 中 的 信号 传输 。 树 突 就 像 细 长 的 电 统 ， 大 脑 的 神经 元 通过 附着 在 树 
突 上 的 数 以 千 计 的 突 触 收集 信息 。 他 和 赁 直觉 认为 ， 通 过 改变 树 突 中 离 
子 通 道 的 密度 ， 可 以 最 大 限度 地 提高 树 突 中 流通 的 信息 量 。 在 人 简化 问 
题 的 过 程 中 (忽略 树 突 ) ， 安 东 尼 和 我 发 现 了 一 种 新 的 信息 理论 学 习 


算法 ， 我 们 称 之 为 “独立 分 量 分 析 (ICA) ”， 它 解决 了 言 源 分 离 问 题 
(见方 框 6.1) »(9 
独立 分 量 分 析 已 经 有 了 数 千 个 应 用 实例 ， 而 且 已 经 出 现在 了 信和 号 
处 理 的 教科 书 中 。 舍 在 被 应 用 于 户外 场景 的 自然 图 像 的 碎片 中 时 ， 独 
立 分 量 分 析 的 独立 成 分 是 局 部 化 的 定向 边缘 滤波 器 ( 见 图 6-3) ， 类 似 
于 猫 和 猴子 的 视觉 皮层 中 的 简单 细胞 ( 见 图 5-4) 2 sR E 
分 析 方 法 时 ， 只 需要 很 少 的 信息 源 就 能 重建 一 幅 图 像 中 的 一 个 图 块 ， 
这 种 重建 在 数学 上 被 称 为 "稀疏 性 ” (spare) » © 
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图 6-3 源 自 自然 图 像 的 独立 分 量 分 析 滤 波 器 。 使 用 左 图 自然 场景 图 像 中 的 图 块 (12x12 像 素 ) 
作为 输入 ， 通 过 具有 144 个 输出 单元 的 独立 分 量 分 析 网 络 得 到 输出 。 右 图 中 产生 的 独立 分 量 与 
在 初级 视觉 皮层 中 发 现 的 简单 细胞 类 似 : 它们 具有 局 部 性 和 定向 性 ， 分 为 正 区 域 (白色 ) 和 
负 区 域 (黑色 ) ， 灰 色 区 域 代表 零点 。 只 需要 几 个 滤波 器 就 可 以 表示 任何 给 定 的 图 块 ， 这 一 
性 质 被 称 为 “稀疏 性 ”。 左 图 来 源 : Michael Lewicki; ARR: Bell and Sejnowski, “The 
‘Independent Components’ of Natural Scenes Are Edge Filters,” figure 4。 


6.1 
独立 分 量 分 析 是 如 何 工作 的 


主 分 量 分 析 (PCA) 和 独立 分 量 分 析 CICA) 之 间 的 比较 。 
片 中 的 圆 总 表示 两 个 麦克 风 分 别 在 垂直 和 水 平 轴 上 的 输出 。 每 个 
点 的 坐标 是 单个 时 间 总 记录 在 两 个 麦 元 风 上 的 值 。PCA 有 是 一 种 非常 
受 欢迎 的 无 监督 学 习 技 术 ， 它 挑选 出 将 两 个 信号 等 分 的 方 喇 ， 将 
它们 的 混合 程度 最 大 化 ， 并 且 PCA 轴 始终 相互 垂直 。ICA 找 到 沿 点 
的 方 癌 伸展 的 轴 ， 来 表示 分 离 的 信号 ， 这 些 轴 可 能 不 是 垂直 的 。 


这 些 结果 证 实 了 20 世 纪 60 年 代 闭 名 视觉 科学 家 霍 勒 斯 : 巴 洛 
(Horace Barlow) 的 猜想 ， 那 时 大 卫 : 休 伯 尔 和 托 斯 坦 : 威 泽 尔 已 经 在 
视觉 皮层 中 发 现 了 简单 细胞 。 一 个 图 像 通常 包含 大 量 的 见 余 信息 ， 
为 附近 的 像素 通常 具有 相似 的 值 (例如 天 空 的 像素 ) ° EWIE, 
过 减少 自然 场景 表达 中 的 宛 余 ， 时 简单 细胞 就 能 够 更 有 效 地 传输 图 像 
中 的 信息 。 整 个 学 界 花 了 50 年 的 时 间 ， 才 开发 出 数学 工具 来 证 实 他 的 
直觉 。 
安东尼 和 我 还 认为 ， 独 立 分 量 分 析 被 应 用 于 目 然 声 音 时 ， 独 立 分 
量 是 具有 不 同 频率 和 持续 时 间 的 时 域 滤波 妖 ， 类 似 于 在 听觉 神经 系统 
初期 处 理 部 分 中 发 现 的 滤波 器 。 人 党 ) 这 使 得 我 们 相信 ， 在 试图 理解 感 观 
言 号 是 如 何在 视觉 皮层 最 早期 的 处 理 阶 段 被 表征 这 一 基本 原则 的 道路 


上 ， 我 们 前 进 的 方 同 古 正确 的 。 通 过 将 这 个 原理 扩展 到 线性 滤波 右 的 
独立 特征 子 空间 ， 就 可 以 在 视觉 皮层 中 建立 复杂 细胞 的 模型 。( 办 

独立 分 量 分 析 网 络 包 含 相 同 数量 的 输入 和 输出 单元 ， 以 及 把 它们 
完全 连接 起 来 的 一 组 权重 。 为 解决 育 源 分 离 问 题 ， 才 元 风 的 声音 通过 
输入 层 输入 ， 每 个 麦 元 风 占 有 一 个 输入 单元 ， 而 独立 分 量 分 析 学 习 算 
法 (类 似 感知 器 算法 ) 不 断 迷 代 修改 传递 到 输出 层 的 权重 ， 直 到 它们 
收敛 。 但 是 ， 不 同 于 感知 器 这 种 监督 学 习 算 法 ， 独 立 分 量 分 析 是 一 种 
无 监督 学 习 算法 。 它 使 用 输出 单元 之 间 的 独立 性 度量 作为 代价 函数 ， 
但 并 不 知道 输出 目标 应 该 是 什么 。 为 了 使 输出 尽 可 能 独立 ， 权 重 不 断 
被 修改 ， 原 始 声 源 就 被 完美 地 分 离开 来 ， 或 者 如 果 它 们 彼此 并 不 是 独 
立 的 ， 其 相关 性 也 会 补 尽 可 能 地 去 除 挥 。 无 监督 学 习 可 以 在 许多 不 同 
类 型 的 数据 集中 发 现 以 前 未 知 的 统计 结构 。 


将 独立 分 量 分 析 应 用 于 大 脑 


我 实验 室 里 的 其 他 人 将 安东尼 :贝尔 的 信息 最 大 化 独立 分 量 分 析 算 
法 应 用 于 大 脑 的 不 同类 型 的 记录 ， 由 此 引发 了 一 系列 的 顿悟 时 刻 。 
1924 年 ， 汉 斯 : 伯 格 (Hans Berger) 从 头皮 上 记录 了 大 脑 的 第 一 个 电信 
号 ， 被 称 为 脑 电 多 。 神 经 科学 家 利用 这 些 复杂 的 振 沪 信号 来 监听 我 们 
不 断 变 化 的 大 脑 状态 ， 这 种 状态 随 我 们 的 警觉 性 和 感觉 运动 相互 作用 
而 变化 。 头 皮 上 一 个 电极 处 的 电信 号 接收 来 目 大 脑 皮层 内 许多 不 同 来 
源 的 输入 ， 也 接收 肌肉 和 眼球 运动 噪声 的 输入 。 每 个 头皮 电极 接收 来 
目 大 脑 中 相同 产 组 的 袍 合 信号 ， 这 些 信号 具有 不 同 的 振幅 ， 这 与 鸡 尾 
酒会 上 的 问题 如 出 一 攻 。 

20 世 纪 90 年 代 ， 斯 科 特 : 马 克 格 (Scott Makeig) tk ERK SU 
完 所 的 实验 室 里 的 研究 员 ， 他 使 用 独立 分 量 分 析 从 脑 电 图 记录 中 提取 
了 大 脑 皮 层 中 的 几 十 个 偶 极 源 ， 以 及 它们 各自 的 时 间 过 程 〈 见 图 6- 


4) 。 偶 极 子 是 大 脑 信 息 源 最 简单 的 模式 之 一 。 最 简单 的 是 由 单一 静电 
电荷 产生 的 覆盖 整个 头皮 的 均一 模式 。 第 二 简单 的 模式 是 由 电流 直线 
移动 产生 的 偶 极 子 模式 ， 发 生 在 皮层 锥 体 神经 元 中 。 把 偶 极 子 想 象 成 
一 个 箭头 ， 头皮 上 沿 箭头 的 方向 为 正 ， 沿 箭 尾 的 方向 为 负 。 该 模式 履 
盖 了 整个 头 部 ， 这 就 是 为 什么 分 离 同 时 被 激活 的 许多 大 脑 信 息 源 非常 
困难 。 从 脑 电 图 提取 的 两 个 信息 ， 大 致 相当 于 图 6-4 中 
的 偶 极 产 。 。 独 立 分 量 分 析 还 分 离 了 噪声 ， 例如 眼球 运动 和 电极 噪声 
这 些 噪 Se 
自 那 时 起 ， 数 以 千 计 已 发 表 的 论文 都 在 使 用 独立 分 量 分 析 方法 分 析 脑 
电 图 记录 ， 并 在 使 用 独立 分 量 分 析 方 法 分 析 大 量 脑 状 态 的 研究 领域 取 
得 了 重要 发 现 。 
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图 6-4 独立 分 量 分 析 被 应 用 于 头皮 脑 电 图 记录 。 在 俯视 角度 的 头皮 绘图 (鼻子 朝 上 ) 中 ， 黑 点 
的 位 置 是 电极 ， 某 个 时 间 点 的 电压 以 微 伏 (hV) 为 单位 用 彩色 标注 。 左 侧 图 中 五 个 头皮 通道 
显示 波动 中 的 脑 电 图 信号 受到 了 来 自 皮 上 腿 和 肌肉 信号 的 噪声 污染 。 独 立 分 量 分析 可 以 将 大 脑 
成 分 与 噪声 分 开 ， 如 右 图 所 示 RIC RRA”) 。IC1 是 基于 缓慢 时 间 过 程 的 肯 眼 
运动 ， 此 时 头皮 绘图 在 靠近 眼睛 的 地 方 数值 最 高 红色) 。IC4 是 肌肉 运动 噪声 ， 可 以 看 到 高 
频率 、 高 振幅 的 噪声 和 头皮 图 上 的 局 部 源 。IC2 和 IC3 是 大 脑 信息 源 ， 分 别 表示 为 头皮 上 的 偶 
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式 (如 左边 头皮 绘图 所 示 ) 。 图 片 来 源 : Tzyy-Ping Jung ° 
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图 所 记录 的 头皮 上 更 复杂 的 模 


OT LIK (Martin McKeown) 当时 是 我 实验 室 的 一 名 博士 后 
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分 量 分 析 应 用 于 fMRI 的 记录 中 〈 见 图 6-5 
大 脑 中 数 以 万 计 的 位 置 对 与 神经 活动 间接 相关 的 血 氧 水 平 进行 测量 。 
在 图 6-5 中 ， 独 立 分 量 分 析 信 息 源 是 与 其 他 信息 源 具 有 共同 时 间 进 程 ， 

但 在 空间 上 相互 独立 的 大 脑 区 域 。 空 间 域 的 稀疏 性 意味 着 在 任何 给 定 


的 时 间 ， 只 有 人 少数 几 个 区 域 是 高 度 活 跃 的 。 


。 他 研究 出 了 如 何 翻转 空间 和 时 间 ， 将 独立 
) 。( 辐 基于 fMRI 的 脑 成 像 在 


持续 与 任务 相关 o 短期 与 任务 相关 


图 6-5 独立 分 量 分 析 被 应 用 于 fMRI 数 据 。 每 个 分 量 由 一 个 大 脑 活 动 图 和 一 个 时 间 过 程 组 成 。 
这 里 显示 了 几 种 不 同类 型 的 分 量 。 图 中 的 任务 代表 了 持续 5 秒 钟 的 视觉 刺激 ， 由 与 任务 相关 的 
分 量 拾取 。 方 框 中 信号 的 时 间 进 程 约 为 一 分 钟 ， 任 务 重复 了 四 次 ， 如 图 (a) 所 示 。 其 他 分 量 
则 采集 了 诸如 头 部 运动 之 类 的 噪声 。 图 片 来 源 : M.J. McKeown, T.-P. Jung, S. Makeig, G. D. 
Brown, S. S. Kindermann, T.-W. Lee, and T. J. Sejnowski,“Spatially Independent Activity Patterns in 


Functional MRI Data during the Stroop Color-Naming Task,” Proceedings of the National Academy 
of Sciences of the United States of America95, no. 3 (1998): 806,figure 1 ° 


因为 独立 分 量 分 析 是 无 监督 的 ， 它 可 以 揭示 能 够 协同 工作 的 大 脑 
区 域 网 络 ， 并 能 够 扩充 试图 将 区 域 中 的 活动 与 感官 刺激 或 运动 反应 联 
系 起 来 的 监督 技术 。 例 如 ， 独 立 分 量 分 析 已 被 用 于 揭示 来 目 受 试 者 的 
fMRI 记 录 中 的 多 个 静电 状态 ， 这 些 受 试 者 只 是 被 要 求 在 扫描 仪 中 保持 
不 动 。 人 所 我 们 仍然 不 了 解 这 些 静 息 状 态 意 味 着 什么 ， 但 是 它们 可 以 代 
表 对 大 脑 活动 负责 的 一 部 分 大 脑 区 域 的 组 合 ， 例 如 我 们 在 做 日 日 梦 ， 
被 一 件 烦 心事 困扰 ， 或 是 正在 计划 晚餐 吃 什么 的 时 候 。 


最 大 独立 性 原则 与 稀世 编 码 原则 有 关 。 尽 管 独立 分 量 分 析 揭 示 了 
许多 独立 的 分 量 ,， 但 只 需要 其 中 的 一 小 部 分 束 能 重建 自然 图 像 中 指定 
的 图 块 。 这 个 原理 也 适用 于 视觉 度 层 ， 视 觉 皮 层 的 细胞 数量 比 视 网 膜 
的 输入 细胞 多 100 倍 。 我 们 的 每 个 视网膜 都 有 100 万 个 神经 节 细 胞 ， 在 
初级 视觉 皮层 中 有 1 亿 个 神经 元 一 这 是 皮层 视觉 层级 中 的 第 一 层 。 视 
网 膜 中 视觉 信号 的 紧 读 编码 ， 在 皮层 中 被 扩展 为 高 度 分 布 且 高 度 稀 下 
的 新 编码 。 将 信息 扩展 到 更 高 维度 空间 的 方法 也 被 应 用 到 其 他 的 编码 
方案 中 ， 其 中 包括 在 听觉 皮层 和 串 觉 皮层 中 发 现 的 编码 。 一 类 被 称 
为 “压缩 感知 算法 ” (compressed sensing algorithms) 的 新 算法 将 稀疏 性 
原理 进行 了 泛 化 处 理 ， 用 来 提高 存储 和 分 析 复 杂 数 据 集 的 效率 。 人 四 


什么 在 操控 我 们 的 言行 


独立 分 量 分 析 的 故事 说 明了 技术 在 科学 和 工程 领域 取得 新 发 现 中 
的 重要 性 。 我 们 通常 将 技术 看 作 测 量 设备 ， 比 如 显微镜 和 放大 器 。 但 
算法 也 十 技术 ， 它 们 能 够 利用 旧 仪 器 获得 的 数据 得 出 新 的 发 现 。 脑 电 
图 技术 已 经 存在 了 将 近 100 年 ， 但 是 如 末 没 有 独立 分 量 分 析 ， 束 无 法 确 
定 潜在 的 大 脑 信 息 源 ， 大 脑 本 身 束 是 一 个 环 环 相 扣 的 算法 体系 ， 如 采 


大 脑 的 某 些 部 分 发 现 了 实施 独立 分 量 分 析 的 方法 ， 我 并 不 会 对 此 感到 
RF © 

20 世 纪 90 年 代 ， 在 为 神经 元 网 络 开发 新 的 学 习 算 法 的 过 程 中 ， 也 
诞生 了 许多 其 他 的 发 现 ， 其 中 很 多 (如 独立 分 量 分 析 ) 现在 都 成 了 机 
器 学 习 中 的 数学 工具 。 这 些 算法 被 租 入 许多 常用 的 设备 中 ， 不 过 没有 
一 个 标明 了 “内 售 神 经 网 络 *。 拿 耳机 或 手机 来 举 个 例子 。Te-Won Lee 
和 Tzyy-Ping Jung 曾 经 是 我 实验 室 的 博士 后 研究 员 ， 他 们 后 来 创立 了 一 
家 名 为 “SoftMax” 的 公司 ， 在 带 有 两 个 麦克 风 的 蓝牙 耳机 中 应 用 ICA 来 
消除 背景 噪声 。 这 样 的 设计 能 够 让 戴 耳 机 的 人 在 嘲 杂 的 餐厅 或 体育 赛 
事 中 听 到 别人 说 话 。2007 年 ，SoftMax 被 高 通 收购 (高 通 为 许多 品牌 的 
手机 设计 芯片 ) 。 而 如 今 ， 类 似 独 立 分 量 分 析 的 解决 方案 也 已 内 入 10 
亿 部 手机 中 。 如 果 你 能 从 运行 独立 分 量 分 析 的 每 部 手机 上 分 到 一 分 
钱 ， 那 你 现在 就 是 个 千 万 富 全 了 。 


安东尼 .贝尔 多 年 来 一 直 对 一 个 更 加 琼 手 的 问题 感 兴趣 。 作 为 人 
类 ， 我 们 的 体内 有 许多 网 络 ， 信 息 从 一 个 网 络 层 到 另 一 个 网 络 层 ， 从 
分 子 到 突 触 ， 到 神经 元 ， 到 神经 群 ， 直 到 形成 决策 ， 所 有 这 些 都 可 以 
用 物理 学 和 生物 化 学 的 法 则 来 解释 ( 见 图 4-4) 。 但 我 们 都 有 这 样 的 感 
受 ， 是 我 们 自己 ， 而 非 物理 或 生物 化 学 反应 ， 在 操控 我 们 的 一 言 一 
行 。 我 们 的 大 脑 神经 群 中 出 现 的 内 部 活动 如 何 引导 我 们 做 出 决定 ， 例 
如 阅读 这 本 书 或 者 打 网 球 ， 一 直 是 一 个 谜 。 这 些 远 远 低 于 我 们 意识 水 
平 的 决定 ， 在 某 种 程度 上 是 由 神经 元 通过 基于 分 子 机 制 的 经 验 形成 的 
突 触 相互 作用 形成 的 。 但 从 我 们 人 类 的 视角 来 看 ， 是 我 们 的 决定 导致 
了 所 有 这 些 事件 在 我 们 的 脑 中 发 生 : 内 省 行为 告诉 我 们 ， 因 果 关 系 中 
的 因 和 果 ， 似 乎 与 物理 和 生物 化 学 领域 中 的 因 和 果 相 反 。 如 何 调和 这 
两 个 观点 ， 是 一 个 深刻 的 科学 问题 。 乌 


1. J. Herault and C. Jutten, “Space or Time Adaptive Signal Processing by Neural Network 
Models,” in J. S. Denker, ed., Neural Networks for Computing, AIPConference 


10. 


11. 


12. 


13. 


Proceedings151, no. 1 (1986): 206-211. 


A. J. Bell and T. J. Sejnowski, *An Information-Maximization Approach to Blind 
Separation and Blind Deconvolution,” Neural Computation7, no. 6 (1995): 1129-1159. 


早 些 时 候 ，IBM 的 拉夫 : 林 斯 克 (Ralph Linsker) 引入 了 一 种 名 为 “infomax” 的 算 
法 ， 以 解释 在 发 育 过 程 中 视觉 系统 是 如 何 彼 此 连接 起 来 的 。R. Linsker, “Self-Organization 
in a Perceptual Network,” Computer21, no. 3 (1988): 105-117. 


A. J. Bell and T. J. Sejnowski, *An Information-Maximization Approach to Blind 


Separation and Blind Deconvolution." 
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托尼 :贝尔 (Tony Bell) 正在 使 用 独立 分 量 分 析 和 近 红 外 光谱 来 研究 水 的 结构 。 他 
试图 证 明 ， 在 当今 仪器 看 不 见 的 尺度 上 ， 水 形成 了 可 通过 光线 进行 沟通 的 连贯 结构 ， 并 
形成 了 生物 分 子 生命 的 基底 。 这 个 想法 是 ， 当 “神经 机 制 ” (nerual schemes) 放松 到 足够 
的 程度 时 ， 体 内 广泛 分 布 的 原子 网 络 会 出 现 连贯 的 信息 ， 决 定 就 是 这 样 产生 的 。 


07 
霍 普 菲 尔 德 网 络 和 玻 尔 兹 曼 机 


在 20 世 纪 80 年 代 ， 疝 在 罗切斯特 大 学 的 计算 机 科学 家 杰 罗 姆 . 费 尔 
(= (Jerome Feldman) 采用 了 联结 主义 (connectionist) 网 络 的 方式 
来 研究 人 工 智 能 。 杰 罗 姆 几乎 没 说 钳 过 什么 话 ， 他 曾经 指出 ， 人 工 智 
能 中 使 用 的 算法 在 运行 了 数 十 亿 个 步骤 之 后 ， 却 常常 得 不 到 一 个 正确 
的 结论 ， 而 大 脑 只 需要 经 历 大 约 100 个 步骤 ， 通 第 就 会 得 出 一 个 正确 的 
结论 。 佳 这 个 *100 步 法 则 ”当时 在 人 工 智能 研究 人 员 中 并 不 像 现在 那 
样 受 欢 迎 ， 但 少数 人 ， 其 中 最 著名 的 是 卡 内 基 - 梅 隆 大 学 的 艾 伦 . 纽 维 
尔 ， 的 确 已 经 开始 把 它 作 为 一 种 约束 。 


有 一 次 我 被 困 在 了 纽约 州 的 罗切斯特 机 场 ， 杰 罗 姆 好 心 留宿 了 我 
一 晚 。 那 天 ， 我 参观 完 位 于 斯 区 内 克 塔 迪 的 通用 电气 研究 实验 宝 ， 准 
备 返 回 巴 尔 的 摩 ， 在 回去 的 飞机 上 ， 听 到 飞行 员 通 知 我 们 罗切斯特 的 
天 气 状况 。 我 这 才 发 现 坐 错 了 航班 。 落 地 后 ， 我 预订 了 飞 往 巴 尔 的 摩 
的 最 早 航 班 ， 但 也 要 等 到 第 二 天 了 。 我 伴 巧 遇见 了 太 罗 姆 ， 他 刚 参 加 
完 在 华盛顿 特区 举办 的 一 次 委员 会 会 议 ， 正 准备 回 家 。 他 很 大 方 地 邀 
请 我 去 他 家 休 乱 一 个 晚上 。 杰 罗 姆 后 来 去 了 加 州 大 学 伯克利 分 校 ， 但 
每 次 我 被 困 机 场 时 ， 痢 会 禁不住 想起 他 。 


太 罗 姆 区 分 了 “ 逮 遇 ”和 "整洁 ?的 联结 主义 模型 。 通 过 模型 跟 信 弗 
里 : 辛 顿 和 我 一 起 研究 过 的 模型 十 分 相似 ， 在 网 络 的 许多 单元 中 分 布 了 
对 对 和 象 和 概念 的 表征 。 而 杰 罗 姆 所 笃信 的 整 涪 模型 ,提供 了 对 对 象 和 
概念 斑 齐 的 计算 表征 ， 每 个 单元 上 只 有 一 个 标签 。 在 更 广泛 的 背景 
下 ， 蝗 过 科学 的 模型 使 用 近似 方法 来 获得 定性 的 答案 ， 而 整洁 科学 的 
模型 致力 于 找到 问题 的 确切 解决 方案 。 事 实 上 ， 人 工 智能 要 取得 进 


展 ， 需 要 同时 应 用 这 两 种 方法 。( 包 我 不 反对 立足 于 “ 通 殉 "的 方法 ， 但 
我 会 尽 一 切 努 力 去 给 出 一 个 更 “整洁 ”的 解释 ， 最 终 努 力 产 生 了 回报 : 
杰 弗 里 和 我 后 来 都 因此 获得 了 巨大 的 成 就 。 


约莫 ' 霍 普 菲 尔 德 的 伟大 之 处 


想 要 获得 物理 学 博士 学 位 ， 你 必须 解决 一 个 问题 。 好 的 物理 学 家 
应 该 有 能 力 解 决 任何 问题 ， 但 伟大 的 物理 学 家 知道 要 解决 什么 样 的 问 
题 。 约 鞭 ' 霍 普 菲 尔 德 浆 是 一 位 伟大 的 物理 学 家 。 在 凝聚 仿 物 理学 领域 
获得 了 态 出 的 成 吏 之 后 ， 他 的 兴趣 转 同 了 生物 学 ， 特 别 是 天 于“ 分子 校 
正 ” 的 问题 。DNA 〈 脱 氧 核糖 核酸 ) 在 细胞 分 裂 过 程 中 被 复制 时 ， 错 
误 不 可 避免 ， 必 须 纠正 这 些 错 误 才 能 保证 子 细胞 遗传 信息 的 准确 度 。 
霍 普 菲尔德 想 出 了 一 个 聪明 的 办 法 ， 并 解释 了 采用 这 个 方法 纠 错 的 过 
程 是 怎么 实现 的 ， 尽 管 他 提出 的 这 种 方法 需要 消耗 能 量 ， 但 随后 的 实 
验 表 明 ， 他 十 正确 的 。 在 生物 学 研究 领域 ， 做 出 任何 正确 的 解释 都 侠 
—J] f ALIA ° 


霍 普 菲 尔 德 是 我 在 普林斯顿 大 学 读 博士 期 间 的 导师 ， 那 时 他 刚 对 
神经 科学 产生 兴趣 ( 见 图 7-1) 。 随 着 这 种 兴趣 变 得 日 益 浓 厚 ， 他 开始 
兴致 勃勃 地 给 我 讲述 ， 他 从 波士顿 神经 科学 人 研究 计划 (Neuroscience 
Research Program, NRP) 会 议 上 那些 神经 科学 人 研究 专家 的 演讲 里 所 学 
到 的 东西 。 我 发 现在 NPR 会 议 上 发 布 的 一 些小 型 研讨 会 会 议 文章 非常 
有 价值 ， 让 我 了 解 了 当时 人 们 正在 研究 什么 问题 ， 以 及 产生 了 哪些 想 
法 。 我 现在 还 保留 着 一 份 由 传奇 神经 学 家 西 奥 多 : 霍 姆 斯 : 布 洛 克 

(Theodore Homes Bullock) 整理 的 关于 神经 编码 的 研讨 会 会 议 文献 。 
西 奥 多 后 来 成 了 我 在 加 州 大 学 圣迭戈 分 校 的 同事 。 西 奥 多 和 艾 德里 安 . 
fe At (Adrian Horridge) 合 著 的 关于 无 脊椎 动物 神经 系统 的 书 堪 称 
经 典 。 人 轧 我 和 西 奥 多 在 模拟 珊瑚 礁 集体 行为 的 项 目 中 有 过 合作 ， 并 且 
我 很 荣幸 地 成 为 他 在 2008 年 发 表 的 最 后 一 篇 学 术 论文 的 共同 作者 。 人 


与 前 层 单元 建立 了 反馈 连接 ， 并 与 同 层 单元 间 存 在 循环 连接 的 神 
经 网 络 ， 要 比 仅 具有 前 馈 连接 的 神经 网 络 复杂 得 多 。 包 含 具有 正 COM. 
A) 权重 和 负 (抑制 ) 权重 的 任意 连接 单元 的 通用 网 络 对 学 界 提出 了 
一 个 数学 难题 。 虽 然 芝 加 哥 大 学 的 杰克 . 考 恩 (Jack Cowan) 和 波士顿 
大 学 的 斯 带 芬 - 格 罗斯 伯 格 (Stephen Grossberg) 在 20 世 纪 70 年 代 后 
期 ， 通 过 证 明 这 样 的 网 络 能 够 重 现 视觉 错觉 汗 和 幻觉 忆 ， 在 该 领域 取 
得 了 一 些 进 展 ， 但 是 工程 师 发 现 这 种 网 络 并 不 能 解决 复杂 的 计算 问 


题 。 


图 7-1 约翰 : 霍 普 菲尔德 在 马萨诸塞 州 伍 效 霍 尔 的 岸 边 正 埋头 解决 某 个 问题 《照片 拍摄 于 1986 
年 前 后 ) 。 霍 普 菲 尔 德 在 20 世 纪 80 年 代 设计 了 一 个 以 他 自己 名 字 命 名 的 神经 网 络 ， 开 启 了 深 
度 学 习 研 究 的 大 门 ， 这 一 设计 对 神经 网 络 研究 产生 了 开创 性 的 影响 。 图 片 来 源 : AE PSE 


A5 
尔 德 。 
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1983 年 的 夏天 ， 闻 顿 、 霍 普 菲 尔 德 和 我 参加 了 杰 罗 姆 . 费 尔 德 曼 在 
罗切斯特 大 学 组 织 的 一 场 讨 论 会 。 霍 普 菲 尔 德 告诉 我 们 ， ae 
种 强 交 互 网 络 的 收敛 问题 。 他 证 明了 一 种 独特 的 非 线 性 网 络 模型 ， 腿 
现在 的 “ 霍 普 菲尔德 网 络 *"， 能 确保 收敛 到 一 种 叫 “ 吸 引子 ” dedu 
的 稳定 状态 〈 见 图 7 -2， 方 框 7.1) © (高 度 非 线性 网 络 很 容易 发 生 振 
荡 ， 或 表现 出 更 多 的 混沌 行为 ) 。 此 外 ， 可 以 通过 选择 网 络 中 的 权 
重 ， 把 吸引 子 状 态 做 成 信息 内 容 。 如 此 一 来 ， 霍 普 菲 尔 德 网 络 就 可 以 
被 用 来 实现 一 种 “内 容 可 寻 址 存储 ” (content-addressable memory) ° ff 
储 的 信息 可 以 只 用 信息 内 容 的 一 部 分 作为 提取 输入 ， 让 神经 网 络 完成 
言 筷 填充 。 这 让 人 联想 起 了 人 的 记忆 行为 。 如 采 我 们 看 到 某 个 熟人 的 
脸 ， 束 能 想起 那个 人 的 名 字 和 先前 与 之 交谈 过 的 内 容 。 
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图 7-2 霍 普 菲 尔 德 网 络 的 能 量 场景 图 。 (AR) 网 络 的 状态 可 以 被 看 作 是 能 量 表面 上 的 一 个 
点 。 (AR) 每 次 更 新 可 以 将 状态 移动 到 其 中 一 个 局 部 能 量 最 小 值 ， 叫 作 “ 吸 引子 状态 ”。 图 
片 来 源 : A. Krogh, J. Hertz, and R.G. Palmer, Introduction to the Theory of Neural 
ComputationRedwood City CA: Addison-Wesley, 1991, left:figure 2.6; right: figure 2.2 ° 


霍 普 菲 尔 德 网 络 的 重大 突破 性 在 于 ， 它 能 在 数学 上 保证 收敛 。 研 
究 人 员 曾 认为 要 分 析 高 度 非 线性 网 络 的 一 般 情况 是 不 可 能 的 。 当 网 络 
中 的 所 有 单元 被 同时 更 新 的 时 候 ， 所 引发 的 动态 情况 非常 复杂 ， 没 有 
办 法 保证 收 化 。( 电 但 是 替 普 菲尔德 网 络 展示 出 ， 当 网 络 中 单元 的 更 新 
是 顺序 进行 的 时 候 ， 一 种 单元 组 彼此 双向 连接 并 且 权重 相同 的 特殊 对 
称 网 络 ， 是 可 解 ， 并 且 最 终 是 能 够 收敛 的 。 


越 来 越 多 的 证 据 表 明 ， 海 马 体 (保存 关于 特殊 事件 和 独特 对 象 长 
期 记忆 的 大 脑 关 键 区 域 ) 中 的 神经 网 络 存在 像 霍 普 菲 尔 德 网 络 中 的 那 
种 吸引 子 状态 。( 轩 虽然 霍 普 菲 尔 德 模型 非常 抽象 ， 但 它 的 本 质 行为 和 
在 海马 体 上 观察 到 的 行为 十 分 相似 。20 世 纪 80 年 代 ， 许 多 物理 学 家 都 
曾 利 用 替 普 菲尔德 网 络 实现 了 由 物理 学 到 神经 科学 的 跨越 。 使 用 理论 
物理 的 复杂 工具 来 分 析 神 经 网 络 和 学 习 算法 的 过 程 中 ， 逛 生 了 很 多 惊 
人 的 发 现 。 物 理 、 计 算 和 学 习 在 神经 科学 理论 领域 深刻 地 联系 在 一 
起 ， 这 一 结合 成 功 地 实现 了 对 大 脑 功 能 的 诠释 。 

约翰 . 霍 普 菲尔德 和 当时 在 贝尔 实验 室 的 大 卫 : 汤 克 (David 
Tank) ， 随 后 又 展示 了 一 种 霍 普 菲尔德 网 络 的 变 体 ， 其 中 的 单元 可 以 
拥有 0 到 1 之 间 的 连续 值 ， 人 党 能 够 很 好 地 解决 优化 问题 ， 例 如 * 旅 行商 
问题 ” (traveling salesman problem) ， 该 问题 旨 在 寻找 能 够 访问 多 个 城 
市 的 最 短路 径 ， 每 个 城市 仅 访问 一 次 。 佑 这 是 一 个 计算 机 科学 领域 众 
所 周知 的 难题 。 网 络 的 能 量 函 数 包 含 了 路 径 的 长 度 ， 限 制 是 每 个 城市 
仅 能 访问 一 次 。 经 过 初始 状态 ， 霍 普 菲 尔 德 和 淘 克 的 网 络 能 最 终 ! 收 侈 
到 一 个 最 小 能 量 状态 ， 表 明 找 到 了 一 条 较 好 的 路 径 ， 虽 然 不 一 定 是 最 
FERRE 。 


局 部 最 小 值 己 全 局 最 小 值 


达 纳 : 巴 拉 德 (Dana Ballard) 在 1982 年 与 克里斯托弗 :布朗 
(Christopher Brown) 一 起 撰写 了 一 本 关于 计算 机 视觉 的 经 典 著 作 ， 
加 他 也 参加 了 1983 年 的 研讨 会 。 辛 顿 和 我 当时 正在 与 巴 拉 德 一 起 为 
《自然 》 杂 志 撰 写 一 篇 关于 图 像 分 析 新 方法 的 综述 。( 电 该 文章 的 核心 
想法 是 ， 用 网 络 模型 中 的 节点 表示 图 像 中 的 特征 ， 网 络 中 的 连接 实现 
了 特征 间 的 约束 条 件 ， 互 相 兼 容 的 节点 具有 积极 的 相互 作用 ， 而 不 莱 


容 的 节点 间 具有 消极 的 相互 作用 。 在 视 沉 中， 必须 找到 满足 所 有 约束 
条 件 的 所 有 特征 的 和 谐 表 达 。 


霍 普 菲 尔 德 网 络 能 够 解决 这 种 约束 满足 问题 吗 ? 能 量 函 数 可 以 用 
来 衡量 网 络 满足 所 有 约束 的 程度 (见方 框 7.1) 。 视 觉 问题 需要 一 个 最 
佳 解决 方案 ， 一 个 全 局 能 量 最 小 值 ， 但 是 霍 普 菲尔德 网 络 的 工作 原理 
决定 了 它 仅 能 提供 局 部 最 小 值 。《 科 学 》 杂 志 上 的 一 篇 文章 让 我 深 受 
启发 ， 其 作者 斯 科 特 : 柯 克 帕 特 里 克 (Scott Kirkpatrick) 当时 在 位 于 纽 
2) 2) ot BLE YR (Yorktown Heights) 的 IBM 托 马 斯 : 沃 森 研 究 中 心 

(Thomas J. Watson Research Center) 工作 。( 央 和 柯 克 帕特里克 使 用 了 一 
种 叫 作 “模拟 退火 ”(simulated annealing) 的 算法 来 解决 局 部 最 小 值 问 
题 。 假 设 你 想 把 一 堆 电子 元 件 装 到 两 块 电路 板 上 ， 怎 么 放置 这 些 元 件 
可 以 使 连接 元 件 的 接线 数量 最 少 呢 ? 

较 差 的 解决 方案 不 是 ， 爷 随机 安放 元 件 ， 然 后 每 次 移动 一 个 元 
件 ， 直 到 找到 用 线 最 少 的 排 布 方案 。 因 为 当 移 动 任 何 一 个 元 件 都 无 法 
减少 用 线 时 ， 很 容易 陷入 局 部 最 小 值 的 陷阱 。 逃 出 这 个 陷阱 的 一 种 方 
式 束 是 ， 人 允许 随机 跳 到 一 种 用 线 更 长 的 放置 方式 。 这 种 跳跃 的 概率 ， 
开始 时 会 很 大 ， 随 后 慢 慢 减 小 ， 直 至 变 成 零 。 如 果 这 种 概率 减 小 的 速 
度 足 够 慢 ， 元 件 的 最 终 排 布 方式 会 达到 接线 的 全 局 最 小 值 。 在 冶金 
业 ， 这 种 做 法 叫 作 退火 。 将 金属 加 热 并 慢 慢 冷却 ， 在 这 一 过 程 中 会 形 
成 缺陷 最 小 的 较 大 的 晶体 结构 ， 这 些 缺 陷 会 使 金属 过 脆 ， 或 出 现 裂 
纹 。 
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在 霍 普 菲尔德 网 络 中 ， 每 个 单元 都 能 向 网 络 中 所 有 其 他 的 单 
元 传递 输出 。 输入 标记 为 站 ， 输 出 标记 为 j。 连 接 的 强度 ， 或 者 说 
单元 之 间 的 权重 是 对 称 的 : wij=wii。 在 每 个 步骤 中 ， 其 中 一 个 单 
元 被 更 新 为 输入 值 的 总 和 ， 并 和 一 个 靖 值 进行 比较 : 如 果 输 入 之 
和 大 于 靖 值 ， 输 出 吏 是 1， 人 否则 输出 束 征 0。 霍 普 菲 尔 德 展示 了 这 
种 网 络 存 在 一 个 能 量 函 数 ， 它 不 会 随 着 网 络 中 单个 单元 的 逐次 更 
新 而 增长 : 


E-Y Wij Xi Xj 


最 终 ， 霍 普 菲 尔 德 网 络 会 达到 “吸引 了 状态”， 即 所 有 单元 值 不 
再 变化 ， 能 量 方程 达到 局 部 最 小 值 。 这 种 状态 等 同 于 存储 好 的 记 
忆 ， 可 以 通过 部 分 存储 好 的 状态 来 初始 化 网 络 ， 实 现 对 完整 记忆 
的 恢复 。 这 残 是 霍 普 菲尔德 网 络 实现 内 容 取 址 记忆 的 方法 。 所 存 
储 回 量 的 权重 可 通过 替 布 突 触 可 塑性 (Hebbian synaptic plasticity) 
得 到 


Awij=axi Xj 


Awij 表 示 权 重 的 变化 ，a 表 示 学 习 速 率 ， 表 示 存 储 的 向量 。 
该 图 由 戴尔 ;而 斯 (Dale Heath) 绘制 。 
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在 霍 普 菲尔德 网 络 中 ， 模 拟 退 火 相 当 于 对 更 新 进行 "加热 ”， 这 样 
能 量 就 能 在 能 量 表面 自由 上 下 。 因 为 单元 在 高 温 下 可 以 随机 反 转 ， 如 
果 温 度 逐 渐 降低 ， 霍 普 菲 尔 德 网 络 很 有 可 能 在 温度 为 零 时 收 线 到 能 量 
最 低 状 态 。 在 实际 操作 中 ， 模 拟 会 在 常温 条 件 下 让 网 络 达 到 平衡 状 
态 ， 这 样 网 络 束 可 以 访问 周围 的 者 干 状 态 ， 并 且 在 一 个 更 广阔 的 范围 
内 搜寻 可 能 的 答案 。 
例如 ， 图 7-3 中 更 影 的 图 案 是 存在 搜 议 的 。 这 取决 于 你 关注 的 古 哪 
个 部 分 ， 你 可 能 会 看 到 一 个 花瓶 或 两 张 侧 脸 ， 但 不 会 同时 看 到 这 两 种 
图 案 。 问 题 的 关键 在 于 ， 你 将 哪 部 分 看 成 图 形 ， 哪 部 分 看 成 背景 。 我 
们 设计 了 一 个 玻 尔 兹 曼 机 网 络 来 模仿 这 个 基于 图 形 一 背景 的 决定 
(figure-ground decision) , 全 用 一 些 单元 代表 被 关注 的 图 形 ， 其 他 单 
元 代表 图 形 的 边 绿 。 我 们 已 经 知道 ， 视 觉 皮 层 中 存在 由 边 绿 激活 的 徐 
单 细胞 ， 但 是 图 形 可 能 位 于 边 绿 的 任意 一 侧 。 我 们 的 玻 尔 兹 受 机 网 络 
通过 两 组 边 绿 单元 实现 了 图 形 选 择 ， 每 组 单元 只 文 持 一 侧 的 图 形 。 这 
类 神经 元 随后 在 视觉 皮层 中 被 发 现 ， 被 称 为 “边界 归属 细胞 ” (border- 
ownerships cells) 。 (3 
玻 尔 效 曼 网 络 中 的 约束 可 以 通过 手动 设置 权重 来 实现 (图 7-4) ° 
在 图 形 单元 之 间 存 在 兴 理 连 授 ， 而 在 边缘 单元 之 间 存 在 着 抑制 连接 。 
边缘 单元 与 它们 所 指 同 的 图 形 单元 之 间 存 在 兴 理 性 连接 ， 能 够 文 持 图 
形 单元 ， 并 与 相 背 离 的 图 形 单元 间 形 成 抑制 性 连接 。( 归 注意 力 是 通过 
对 一 些 图 形 单 位 产生 偏 倚 (bias) 而 实现 的 。 当 玻 尔 兹 曼 网 络 对 单元 


使 用 霍 普 菲尔德 更 新 规则 时 ， 它 会 落 入 局 部 能 量 最 小 值 ， 这 些 局 部 能 
量 最 小 值 在 本 地 图 块 中 一 致 ， 但 在 全 局 上 并 不 一 致 。 当 更 新 中 加 入 了 
噪声 时 ， 玻 尔 效 曼 网 络 可 以 跳出 局 部 最 小 值 ， 并 且 通 过 绥 慢 退火 降低 
噪声 刘 度 ， 这 样 一 来 网 络 的 能 量 函 数 吏 可 能 得 到 全 局 一 致 的 能 量 最 小 
E ( 见 图 7-4) 。 由 于 更 新 是 异步 和 独立 的 ， 因 此 网 络 可 以 由 具有 数 百 
万 个 单元 并 行 工 作 的 计算 机 来 实现 ， 并 且 可 以 比 一 次 按 顺序 执行 一 个 
操作 的 数字 计算 机 更 快 地 收敛 到 解决 方案 中 。 


注意 力 
+ 
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图 7-3 模棱两可 的 图 形 一 背景 问题 。 ( 左 图 ) 如 果 关 注 黑 色 图 形 ， 你 看 到 的 是 一 个 有 白色 背景 
的 花瓶 。 如 果 关 注 的 是 白色 背景 ， 那 你 会 看 到 两 张 互 相 注 视 的 脸 。 你 可 以 来 回 变换 视角 ， 但 
是 做 不 到 同时 看 到 两 种 图 案 。 (AR) 图 形 一 背景 网 络 模型 。 两 种 单元 分 别 代 表 了 物体 的 边 
缘 (线段 ) ， 和 某 个 像素 是 否 属于 图 形 或 者 背景 (DR) 。 图 像 输入 方向 为 从 下 到 上 ， 注 意 
力 输入 方向 是 从 上 到 下 。 其 中 ， 当 某 个 区 域 应 该 被 当 作 图 形 而 进行 填充 时 ， 注 意 力 就 是 针对 
该 区 域 所 产生 的 偏 傅 。 图 片 来 源 : P. K. Kienker, T. J. Sejnowski, G. E. Hinton, and L. 
E.Schumacher, “Separating Figure from Ground with a Parallel Network,”Perception 15 (1986): 
197—216, left: figure1; right: figure 2 ° 
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图 7-4 正在 分 离 图 
元 ， 三 角形 为 标识 轮廓 的 边界 单元 ， 连 接 单元 的 正 负 属性 也 被 一 同 标 出 。 边 缘 单元 可 以 指向 
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(下 图 
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的 玻 尔 兹 曼 机 。 (上 图 ) 网 络 中 的 方形 单元 为 标识 图 形 的 图 形 单 


(a) 关注 于 图 形 C 内 部 区 域 的 网 络 示意 图 。 温 度 ( 生 ) 刚 开始 很 高 ， 单 


启 和 关闭 状态 之 间 不 停 变 换 。 (b) 随 着 温度 下 降 ， 在 指向 内 部 的 边缘 单元 的 支持 下 ， 


C 内 部 的 图 形 单元 开始 聚拢 ， 同时， 注意 区 以 外 或 没有 边缘 输入 的 单位 开始 消失 。 (c) 当 温 
度 为 零 时 ， 注 意 区 的 图 案 被 填 满 。 (d) 如 果 注 意 区 移 向 外 围 ， 重 复 该 过 程 ， 则 外 部 区 域 会 被 
填充 。 图 片 来 源 : P. K. Kienker, T. J. Sejnowski, G. E. Hinton, and L. E. Schumacher, “Separating 
Figure from Ground with a Parallel Network,” Perception15 (1986): 197—216, below: figure 6; above: 
figure 3 ° 


那个 时 候 ， 我 已 经 在 哈佛 医学 院 的 斯 蒂 芬 . 库 夫 勒 那里 完成 了 博 十 
后 研究 ， 在 约翰 . 霍 普 金 斯 大 学 (位 于 巴尔 的 摩 市 ) 生物 物理 系 开始 了 
我 的 第 一 份 工作 ， 杰 上 弗 里 . 辛 顿 在 卡 内 基 - 梅 隆 大 学 (位 于 匹兹堡 市 ) 
计算 机 科学 系 担任 教 职 ， 在 那里 他 很 幸运 地 得 到 了 艾 伦 : 纽 维尔 的 支 
持 ， 艾 伦 对 人 工 智能 的 新 方向 持 十 分 开放 的 态度 。 匹 兹 堡 和 巴尔 的 摩 
离 得 很 近 ， 所 以 杰 弗 里 和 我 可 以 在 周末 见面 。 我 们 将 这 一 霍 普 菲 尔 德 
网 络 的 新 版 本 称 为 “ 玻 尔 兹 曼 机 ”， 以 致敬 19 世 纪 的 物理 学 家 路 德 维 希 - 
SURS (Ludwig Boltzmann) ， 他 是 统计 力学 的 创始 人 。 我 们 的 波 
动 性 神经 网 络 模型 就 是 借助 统计 力学 的 工具 进行 分 析 的 ， 之 后 我 们 委 
快 就 发 现 ， 该 模型 也 是 一 个 强大 的 学 习 机 器 。 

在 恒定 的 "温度 "下 ， 玻 尔 兹 曼 机 会 达到 平衡 。 在 平衡 状态 下 会 发 
生 一 些 神奇 的 事情 ， 多 层 神经 网 络 学 习 的 大 门将 被 打开 。 而 此 前 ， 每 
个 人 都 认 为 它 的 存在 有 疯 无 利 。 有 一 天 ， 赤 弗 里 给 我 打 电 话 ， 说 他 刚 
刚 从 玻 尔 兹 曼 机 衍生 出 一 个 简单 的 学 习 算法 。 该 算法 的 目标 是 执行 从 
输入 单元 到 输出 单元 的 映射 。 但 与 感知 器 不 同 的 是 ， 玻 尔 兹 曼 机 在 输 
入 和 输出 层 之 间 也 存在 一 些 单元 ， 我 们 称 之 为 "隐藏 单元 ”( 见 方 杠 
72) 。 通 过 对 其 呈现 输入 一 输出 对 和 应 用 学 习 算法 ， 玻 尔 兹 曼 网 络 学 
会 了 实现 目标 映射 。 但 是 ， 其 目标 不 仅仅 是 要 记 住 输入 一 输出 对 ， 也 
要 将 没有 被 用 于 训练 网 络 的 新 输入 正确 地 进行 分 类 。 此 外 ， 玻 尔 兹 曼 
机 也 在 通过 其 持续 不 断 的 波动 状态 来 学 习 概率 分 布 一 对 于 一 个 给 定 
的 输入 模式 ， 每 个 输出 状态 的 访问 频率 如 何 一 这 就 使 其 具备 了 生成 
性 ， 学 习 之 后 ， 它 可 以 通过 钳制 每 个 输出 类 别 来 生成 新 的 输入 样本 。 
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令 人 惊讶 的 是 ， 玻 尔 效 曼 机 学 习 算 法 在 神经 科学 领域 有 着 悠久 的 
历史 ， 可 以 追溯 到 心理 学 家 唐纳德 . 赫 布 (Donald O. Hebb) 博士 ， 他 
在 《行为 的 组 织 》 一 书 中 假定 ， 寿 两 个 神经 元 同时 被 激发 ， 它 们 之 间 
的 突 触 连 接应 该 会 增强 : 


7.2 
BURG SL 


二 进 制 玻 尔 兹 曼 单 元 
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对 称 的 ， 并 且 其 中 的 二 进 制 单元 i 的 状态 值 s; ， 会 按照 上 图 中 的 
Sigmoid 函 数 (sigmoid function) 提供 的 一 个 概率 ， 逐 个 被 更 新 成 1 
或 0。Sigmoid 函 数 的 输入 值 AE 通 过 温度 T 来 进行 比例 缩放 。 输 入 层 
和 输出 层 都 是 “可 见 的 ”， 也 就 是 说 它们 会 与 外 界 进行 交互 。“ 隐 藏 


单元 "代表 了 能 够 影响 可 见 层 单元 的 带 有 内 部 自由 度 的 特征 。 玻 尔 
效 曼 机 学 习 算 法 有 两 个 阶段 ， 在 “清醒 "阶段 ， 输 入 和 输出 会 被 钳制 
(clamped) ( 因 ， 当 网 络 达 到 平衡 状态 后 ， 每 对 单元 状态 值 之 间 的 
相关 系数 会 被 计算 出 来 ， 在 “睡眠 ”阶段 ， 输 入 和 输出 钳制 被 解除 ， 
每 对 单元 状态 值 之 间 的 相关 性 会 被 重新 计算 ， 其 中 的 权重 会 被 逐 
步 更 新 : 


Awij=e(<si Sj pad Sj pae) 


让 我 们 假设 反射 活动 (或 “追踪 痕迹 ") 的 持续 或 重复 ， 趋 向 于 
引起 持续 的 细胞 变化 来 增加 其 稳定 性 。 当 细胞 A 的 轴 突 接近 细胞 
B， 并 且 反 复 或 持续 地 参与 激发 细胞 B 时 ， 其 中 一 个 或 者 两 个 细胞 
中 都 会 发 生 某 种 生长 过 程 或 代谢 变化 ，A (作为 激发 B 的 细胞 之 
—) ARS HH » 9 


这 可 能 是 整个 神经 科学 领域 中 最 有 名 的 预言 。 后 来 在 海马 体 中 发 
现 了 赫 布 突 和 触 可 塑性 (Hebbian Synaptic Plasticity) ， 海 马 体 是 大 脑 中 
控制 长 期 记忆 的 重要 组 成 部 分 。 当 一 个 海马 锥 体 细胞 接收 强 输入 信 
号 ， 同 时 该 神经 元 也 发 生 了 放电 反应 时 ， 突 触 的 连接 强度 束 会 增加 。 
随后 的 实验 表明 ， 这 种 强化 是 基于 突 触 的 发 射 右 释放 与 受 体 神 经 元 中 
电压 升 高 的 结合 。 此 外 ， 这 种 结合 的 发 生 被 一 种 特殊 的 受 体 ， 即 
NMDA (N- 甲 基 -D- 天 冬 氨 酸 ) 合 氨 酸 受 体 所 识别 。 它 触发 了 长 时 程 
增强 (long-term potentiation ， 简 称 LTP) ， 其 起 效 迅速 而 且 持 续 时 间 
长 ， 是 一 种 很 好 的 长 期 记忆 基质 。 与 玻 尔 效 曼 机 学 习 算法 (见方 框 
7.2) 十 分 相似 ， 突 触 上 的 赫 布 可 塑性 是 由 输入 和 输出 之 间 的 一 致 性 决 
定 的 。 

更 令 人 惊讶 的 是 ， 玻 尔 兹 曼 机 需要 一 定 的 “睡眠 ”才能 学 习 。 它 的 
学 习 算法 有 两 个 阶段 。 在 第 一 阶段 ， 即 “清醒 ?阶段 ， 随 着 输入 和 输出 
模式 被 钳制 到 期 望 的 映射 ， 网 络 中 的 单元 被 多 次 更 新 以 达到 平衡 ， 


对 单元 都 为 1 的 次 数 所 占 的 百分比 会 被 记录 下 来 。 在 第 二 阶段 ， 即 “ 睡 
眠 ?阶段 ， 输 入 和 输出 单元 被 释放 ， 每 对 单元 在 目 由 运行 状态 中 都 为 1 
的 次 数 百 分 比 也 被 记 隶 下来。 然后， 每 个 连接 强度 按照 清醒 和 睡眠 阶 
段 一 致 率 之 间 的 差异 ， 按 比例 进行 更 新 (见方 框 7.2) 。 睡眠 阶段 的 计 
算是 为 了 确定 钳制 的 相关 性 中 哪个 部 分 是 由 外 部 原因 造成 的 。 在 不 去 
除 内 部 产生 的 相关 性 的 情况 下 ， 该 网 络 会 加 强 内 部 活动 模式 ， 并 学 习 
忽略 外 部 的 影响 ， 这 是 二 联 性 精神 病 (folie à deux) OHRA 
有 趣 的 是 ， 极 度 的 睡眠 剥夺 会 导 怪 人 体 处 于 妥 想 的 状态 ， 在 没有 窗户 
和 恒定 照明 的 医院 重症 监护 病房 中 ， 这 样 的 问题 并 不 罕见 。 精 人 神 分 家 
证 患者 通常 患 有 睡眠 障碍 ， 可 能 导致 他 们 患 上 妄想 证 。 这 使 我 们 确 
信 ， 我 们 正 沿 着 正确 的 方向 理解 大 脑 的 工作 原理 。 


学 习 识 别 镜 像 对 称 


玻 尔 效 曼 机 可 以 解决 ， 但 感知 器 却 不 能 解决 的 一 个 问题 ， 就 是 如 
何 学 习 镜像 对 称 。( 己 人 体 是 沿 着 一 个 垂直 的 轴 两 边 对 称 的 。 我 们 可 以 
用 这 个 对 称 轴 生 成 大 量 随机 图 案 ， 如 图 7-5 所 示 ， 也 可 以 采用 水 乎 轴 和 
对 和 角 轴 对 称 。 在 我 们 的 玻 尔 兹 曼 机 网 络 中 ， 按 照 10x10 排 布 的 大 干 块 
二 进 制 输入 被 投影 到 16 个 隐藏 单元 中 ， 然 后 再 投影 到 3 个 输出 单元 ， 每 
个 输出 单元 对 应 3 个 可 能 的 对 称 轴 中 的 一 个 。 在 接受 了 6000 个 对 称 输入 
模式 的 训练 后 ， 玻 尔 兹 曼 机 对 全 新 输入 的 对 称 轴 进 行 分 类 的 成 功率 为 
90%。 感 知 句 得 到 的 结 末 不 会 比 随 机 猜测 的 结果 好 ， 因 为 单一 的 输入 
并 不 包含 关于 模式 对 称 性 的 信息 ， 必 须 对 输入 对 之 间 的 相关 性 进行 考 
察 。 值 得 注意 的 是 ， 人 类 观察 者 看 到 的 输入 阵列 与 玻 尔 兹 曼 机 所 看 到 
的 并 不 一 至， 因为 玻 尔 兹 曼 机 的 每 个 隐藏 单元 都 从 整个 阵列 接收 输 
入 ， 并 不 遵循 任何 特定 的 顺序 。 对 于 观察 者 来 说 ， 等 价 的 问题 是 要 随 
机 安排 阵列 中 输入 单元 的 位 置 ， 这 会 使 阵列 在 观察 者 看 来 是 随机 的 ， 
即使 其 中 存在 隐藏 的 对 称 性 。 
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图 7-5 对 称 的 随机 图 案 。 每 个 10x10 的 阵列 都 存在 垂直 、 水 平 或 对 角 方 向 上 的 镜像 对 称 。 网 络 
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模型 的 目标 是 学 习 如 何在 没有 参与 网 络 模型 训练 的 新 样本 中 依据 对 称 轴 进 行 分 类 。 图 片 来 
i: T. J. Sejnowski, P. K. Kienker,and G. E. Hinton, “Learning Symmetry Groups with Hidden 
Units: Beyond the Perceptron,” Physica22D(1986): 260- 275, figure 4 ° 


有 一 天 ， 我 正 盯 着 显示 器 ， 以 每 秒 两 次 的 速度 读 出 每 个 输入 模式 
的 对 称 性 。 当 时 我 在 约翰 . 霍 普 ue 
(Neal Cohen) 也 在 观察 这 个 屏幕 ， 但 他 却 不 能 区 分 这 些 对 称 性 ， 除 
非 凑 近 了 仔细 看 ， ies SRA RESTART sede uus 
习 过 程 类 似 ， 观 察 了 显示 器 数 日 之 后 ， 我 的 视觉 系统 被 训练 到 可 以 自 
动 检 测 对 称 性 ， 而 不 需要 在 屏幕 上 四 处 对 比 查看 。 尼 尔 和 我 设计 了 一 
个 实验 ， 用 本 科 生 作为 未 经 训练 的 考察 对 象 ， 观 察 他 们 在 这 一 任务 上 
的 进展 。( 屿 开始 时 ， 他 们 花 了 很 长 时 间 才 找 出 正确 的 对 称 性 ， 但 经 过 


几 天 的 训练 以 后 ， 他 们 的 速度 变 得 飞快 。 到 了 实验 后 期 ， 他 们 能 够 快 
速 、 轻 松 地 找到 对 称 性 ， 甚 至 可 以 在 任务 过 程 中 与 我 们 进行 交谈 ， 得 
到 的 答案 依然 准确 无 误 。 这 是 非常 快速 的 感知 学 习 。 

我 在 约翰 . 霍 普 金 斯 大 学 教授 过 计算 生物 物理 学 ， 这 门 课程 吸引 了 
很 多 有 才华 的 学 生 和 研究 人 员 。 本 . 尤 哈 斯 (Ben Yuhas) 是 与 我 一 起 工 
作 的 电子 工程 系 的 研究 生 ， 他 在 写作 博士 论文 期 间 ， 训 练 了 一 个 神经 
网 络 来 阅读 层 语 。( 央 人 的 嘴巴 在 运动 过 程 中 包含 了 声音 的 信息 。 尤 哈 
斯 的 网 络 将 嘴 部 的 图 像 转换 为 每 个 时 间 点 上 产生 声音 的 相应 频谱 。 这 
一 技术 可 以 辅助 处 理 有 噪声 的 声 谱 以 改善 语音 识别 。 他 的 研究 生 同 学 
安 德 里 亚 斯 : 安 德 里 欧 (Andreas Andreou) 是 希腊 族 塞 浦 路 斯 人 ， 他 当 
时 正在 Barton Hall 大 楼 的 地 下 室 里 建造 模拟 超大 规模 集成 电路 芯片 
(将 在 第 14 章 中 进行 介绍 ) 。 在 20 世 纪 80 年 代 ， 许 多 院 系 的 教师 对 待 
神经 网 络 的 态度 都 不 太 友善 ， 这 样 的 现象 在 很 多 机 构 中 都 非常 普遍 ， 
但 这 并 不 能 阻止 尤 哈 斯 或 安 德 里 欧 研 究 的 脚步 。 事 实 上 ， 安 德里 欧 后 
来 成 了 约翰 . 霍 普 金 斯 大 学 的 正教 授 ， 并 合作 建立 了 约翰 . 霍 普 金 斯 大 学 
语言 和 语音 处 理 中 心 。 尤 哈 斯 则 组 建 了 一 个 咨询 团队 ， 为 政府 和 企业 
客户 提供 数据 科学 咨询 服务 。 


学 习 识 别 手 写 数 字 


最 近 ， 杰 弗 里 : 辛 顿 和 他 在 多 伦 多 大 学 的 学 生 们 训练 了 一 个 带 有 三 
层 隐藏 单元 的 玻 尔 效 曼 机 ， 能 够 对 手写 邮政 编码 进行 非常 准确 的 分 类 
( 见 图 7-6) 。( 晤 由 于 玻 尔 兹 曼 网 络 具 有 反馈 和 前 馈 连 接 ， 因 此 可 以 
反 向 运行 网 络 ， 钳 制 其 中 一 个 输出 单元 ， 并 生成 与 钳制 输出 单元 相对 
应 的 输入 模式 ( 见 图 7-7) 。 这 种 生成 性 网 络 能 捕获 训练 集 的 统计 结 
构 ， 而 它们 生成 的 样本 也 会 继承 这 些 属性 。 就 好 像 这 些 网 络 进入 了 睡 
眠 状态 ， 网 络 最 高 层 的 活动 在 输入 层 产生 了 梦境 一 般 的 状态 序列 。 


î U 


28 x 28 像素 


图 7-6 用 于 手写 数字 识别 和 生成 样本 的 多 层 玻 尔 兹 曼 机 。 图像 具有 28x28 个 像素 ， 可 以 是 日 色 
或 黑色 。 目 标 是 根据 10 个 输出 单位 (0-9) 对 数字 进行 分 类 。 图 片 来 源 : G.E. 
Hinton, “Learning Multiple Layers of Representation, "Trends in Cognitive Sciences11(2007):428- 


434, figure 1 ° 
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图 7-7 由 经 过 训练 后 可 以 识别 手写 数字 的 多 层 玻 尔 效 曼 机 生成 的 输入 层 图 案 。 每 一 行 都 是 通过 
钳制 10 个 输出 单元 中 的 一 个 产生 的 ( 见 图 7-6) 且 输 入 层 在 上 述 示例 之 间 持 续 变 化 。 这 些 
数字 都 没有 在 训练 集中 出 现 过 一 一 它们 是 被 训练 有 素 的 网 络 的 内 部 结构 “幻想 ?出 来 的 。 图 片 
来 源 : G.E. Hinton，S. Osindero and Y. Teh, “ADeep Learning Algorithm for Deep Belief Nets”, 
Neural Computation18(2006):1527-1554, figure 8 ° 


尽管 神经 网 络 在 物理 学 和 工程 学 中 的 兴起 十 分 迅速 ， 但 传统 的 认 
知 科学 家 却 迟 迟 不 能 接受 它 作为 理解 记忆 和 语言 处 理 的 形式 体系 。 除 
TAHLITA (PDP) 研究 组 和 一 些 独立 的 研究 者 ， 符 号 
处 理 仍 然 是 业界 的 主流 方法 。 杰 弗 里 和 我 在 1983 年 参加 了 认 知 科学 协 
会 (Cognitive Science Society) 的 会 议 。 会 议 期 间 ， 研 究 短 期 记忆 和 和 意 
象 的 心理 学 家 泽 农 : 派 利 夏 因 (Zenon Pylyshyn) 表示 出 了 对 玻 尔 北 曼 
机 的 不 恬 。 他 瑚 讲台 上 泌 了 一 杯 水 ， 并 大 声 喊 道 :“ 这 不 是 计算 ! ”而 
其 他 人 则 认为 整个 领域 仅仅 是 在 搞 统计 吴 了 。 但 杰 罗 姆 :莱特 文 

(Jerome Lettvin) 却 表示 ， 他 真 的 非常 喜欢 我 们 正在 做 的 事情 。 莱 特 
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文 在 1959 年 与 温 贝 托 : 马 托 拉 那 (Humberto Matourana) 、 沃 伦 : 麦 卡 洛 
克 (Warren McCulloch) FURR FF DEY (Walter Pitts) 一 起 撰写 了 经 
典 的 论文 《青蛙 的 眼睛 告诉 大 脑 什么 》 (What the Frog's Eye Tells the 
Frog's Brain) 。( 思 文中 给 出 了 青蛙 视网膜 中 的 虫 类 探测 器 神经 元 对 小 
黑 点 的 反应 最 为 强烈 的 证 据 ， 这 是 一 个 在 系统 神经 科学 领域 极 具 影响 
力 的 想法 。 他 对 我 们 羽 缀 未 丰 的 神经 网 络 模型 的 支持 是 该 领域 早期 发 
展 中 的 重要 一 环 。 


无 监督 学 习 和 皮层 发 育 


玻 尔 兹 曼 机 既 可 以 用 来 进行 监督 学 习 ， 即 输入 和 输出 都 被 钳制 ; 
也 可 以 用 于 无 监督 学 习 ， 即 只 有 输入 被 钳制 。 杰 弗 里 . 辛 顿 使 用 无 监督 
的 版 本 一 次 一 层 地 搭建 出 了 一 个 深度 玻 尔 兹 曼 机 。( 归 从 连接 到 输入 单 
元 的 一 层 隐 藏 单元 开始 即 受 限 玻 尔 北 曼 机 (restricted Boltzmann 
machine) ， 杰 弗 里 用 未 标记 的 数据 对 它 进行 训练 ， 这 些 数 据 比 标记 数 
据 更 容易 获得 〈 互 联网 上 有 数 十 亿 未 标记 的 图 像 和 录音 ) ， 可 以 使 学 
习 进 度 更 快 。 无 监督 学 习 的 第 一 步 是 从 数据 中 提取 所 有 数据 共有 的 统 
计 规 律 ， 但 第 一 层 隐藏 单元 只 能 提取 简单 的 、 用 感知 器 也 可 以 表现 的 
特征 。 下 一 步 是 将 权重 固定 到 第 一 层 ， 并 在 上 面 添加 第 二 层 单元 。 更 
多 的 无 监督 玻 尔 兹 曼 学 习 产 生 了 更 复杂 的 一 组 特征 ， 可 以 不 断 重复 这 
一 过 程 来 创建 具有 多 层 深度 的 网 络 。 


因为 上 层 的 单元 包含 更 多 非 线性 的 低层 特征 组 合 ， 使 得 它们 可 以 
作为 一 个 整体 ， 从 具体 的 特征 中 抽象 出 更 普遍 的 特征 。 因 此 ， 在 上 层 
进行 的 分 类 变 得 容易 得 多 ， 只 需要 更 少 的 训练 样本 就 能 在 更 高 的 计算 
水 平 达到 收敛 。 尽 管 如 何 描述 这 种 解决 方案 背后 的 数学 原理 依然 有 待 
商检 ， 但 已 经 有 新 的 几何 工具 开始 在 这 些 深度 网 络 中 思 露 头角 了 “。 人 四 ) 
皮层 似乎 也 是 逐 层 生长 的 。 在 视觉 系统 发 育 的 早期 阶段 ， 作 为 第 一 层 
从 眼睛 接收 输入 信号 的 神经 元 ， 初 级 视觉 皮层 中 的 神经 元 具有 很 高 的 


可 塑性 ， 并 且 很 容易 根据 视觉 输入 流 重 新 建立 连接 ， 这 种 连接 在 关键 
时 期 结束 后 消失 〈 这 部 分 在 第 5 章 已 经 讨论 过 ) 。 大 脑 后 部 的 视觉 区 域 
和 其 他 感官 流 的 层级 结构 最 先 发 育成 熟 ， 靠 近 大 脑 前 部 的 皮层 区 域 则 
需要 更 长 的 时 间 。 前 额 叶 皮 层 ， 也 就 是 最 靠近 大 脑 前 端的 部 分 ， 直 到 
成 年 早期 才 可 能 完全 发 育成 熟 。 在 关键 期 ， 皮 层 区 域 的 连接 接受 神经 
活动 影响 最 大 ， 这 些 层 到 的 关键 时 期 导致 了 皮层 的 逐渐 发 育 。 加 州 大 
APERTAR ZAR FB SK (Jeffrey Elman) FF NN X 
日 :由 次 (Elizabeth Bates) 跟 其 他 同事 一 起 ， 针 对 皮层 的 逐渐 发 育 如 何 
帮助 儿 重 通过 了 解 世界 而 获得 新 能 力 ， 给 出 了 联结 主义 网 络 角度 的 解 
KE 。 人 这 一 工作 为 解释 我 们 漫长 的 童年 如 何 使 人 类 成 为 最 善于 学 习 的 
物种 ， 开 尽 了 一 个 新 的 研究 方向 ， 同 时 也 对 先前 围绕 某 些 与 生 俱 来 的 
行为 产生 的 论调 提供 了 新 的 视角 。 

REJER (Steven Quartz) 曾经 是 我 实验 室 里 的 博士 后 研究 
员 ， 现 在 在 加 州 理工 学 院 做 教员 。 我 们 在 合作 发 表 的 《骗子 、 爱 人 和 
英雄 》 (Liars, Lovers and Heroes) 划一 文中 曾经 写 道 ， 在 儿 董 和 青 少 
年 时 期 的 大 脑 发 育 过 程 中 ， 经 验 可 以 深刻 地 影响 神经 元 的 基因 表达 ， 
从 而 改变 负责 行为 的 神经 回路 。 基 因 的 差异 性 以 及 环境 影响 之 间 的 交 
互 作 用 ， 让 我 们 能 够 从 新 的 角度 认识 大 脑 发 育 的 复杂 性 。 这 一 活跃 的 
人 研究 领域 超越 了 先天 与 后 天 的 辩论 ， 并 从 文化 生物 学 的 角度 对 其 进行 
了 重新 定义 。 我 们 的 生物 特性 不 仅 促 成 了 人 类 文明 的 诞生 ， 也 反 过 来 
被 人 类 文明 影响 着 。( 志 最 近 的 一 项 发 现 为 这 个 故事 续 写 了 新 篇 章 ; 当 
神经 元 之 间 突 触 的 形成 在 早期 发 育 过 程 中 迅速 增加 时 ， 神 经 元 内 部 的 
DNA 在 诞生 后 通过 一 种 甲 基 化 的 形式 进行 表 观 遗传 修饰 ， 这 种 甲 基 化 
调节 基因 的 表达 是 大 脑 所 独 有 的 。( 时 这 种 表 观 遗传 修饰 可 将 我 和 史 蒂 
文 之 前 设想 的 经 验 与 基因 之 间 建 立 起 某 种 连接 。 

到 了 20 世 纪 90 年 代 ， 神 经 网 络 革命 开始 如 火 如 茶 地 进行 。 认 知 神 
经 科学 领域 正在 扩展 ， 计 算 机 变 得 越 来 越 快 ， 但 还 不 够 快 。 玻 尔 兹 曼 
机 的 技术 性 能 非常 出 色 ， 但 是 要 模拟 起 来 却 慢 得 让 人 无 法 忍受 。 真 正 


帮助 我 们 取得 进展 的 是 一 种 更 快 的 学 习 算 法 ， 恰 恰 在 我 们 最 需要 它 的 
时 候 ， 它 与 我 们 不 期 而 遇 了 。 


10. 
11. 


12. 


大 多 数 神经 元 可 以 做 出 决定 的 最 快速 度 大 约 为 10 毫 秒 ， 并 且 在 1 秒 内 做 出 决定 所 需 
要 的 时 间 不 超过 100 时 步 。 
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08 
反问 传播 算法 


加 州 大 学 圣迭戈 分 校 成 立 于 1960 年 ， 现 已 发 展 成 为 生物 医学 研究 
的 主要 中 心 。 它 在 1986 年 成 立 了 世界 上 第 一 个 认 知 科学 系 。( 沁 大 卫 . 鲁 
姆 哈 特 ( 见 图 8-1) 在 那 时 已 经 是 一 位 杰出 的 数学 家 和 认 知 心理 学 家 ， 
他 曾 在 以 符号 学 和 规则 为 基础 的 传统 人 工 智能 领域 工作 过 ， 这 类 研究 
在 20 世 纪 70 年 代 的 人 工 智能 研究 中 占 主导 地 位 。1979 年 ， 我 在 加 州 大 
学 圣迭戈 分 校 由 杰 弗 里 : 辛 顿 组织 的 研讨 会 上 第 一 次 见 到 了 大 卫 ， 当 时 
他 开创 了 一 种 新 的 探索 人 类 心理 的 方法 ， 他 和 詹姆斯 -麦克 莱 兰 称 之 
为 “并行 分 布 式 处 理 ”( 以 下 简称 PDP) 。 大 卫 总 是 能 对 问题 进行 深入 
思考 ， 并 经 常 提出 富有 洞察 力 的 评论 。 

玻 尔 兹 曼 机 学 习 算 法 可 以 学 习 如 何 解决 需要 隐藏 单元 的 问题 ， 这 
表明 ， 训 练 多 层 网 络 并 突破 感知 器 的 限制 是 可 行 的 ， 而 这 种 观点 与 马 
文 : 明 斯 基 和 西 摩尔 - 帕 普 特 以 及 该 领域 大 多 数 人 的 观点 相左 。 网 络 中 的 
层 数 或 任 一 给 定 层 内 的 连接 性 都 不 存在 任何 限制 。 但 是 有 一 个 问题 : 
达到 平衡 和 收集 统计 数据 来 进行 模拟 的 速度 变 得 越 来 越 慢 ， 大 型 网 络 
需要 花费 更 长 的 时 间 才能 达到 平衡 。 


图 8-1 1986 年 左右 在 加 州 大 学 圣迭戈 分 校 的 大 卫 : 鲁 姆 哈 特 ， 那 时 他 刚 出 版 了 两 卷 《 并 行 分 布 
式 处 理 》 (Parallel Distributed Processing) 。 和 鲁 姆 哈 特 在 多 层 网 络 模型 学 习 算 法 的 技术 开发 
0 ， 并 用 该 技术 来 帮助 我 们 理解 语言 和 思维 心理 。 图 片 来 源 ， 大 卫 - 鲁 姆 哈 


原则 上 ， 可 以 构建 具有 大 规模 并 行 体系 结构 的 计算 机 ， 该 计算 机 
比 具 有 每 次 只 进行 一 次 更 新 的 传统 汉 : 诡 依 曼 体系 结构 的 计算 机 快 得 
多 。20 世 纪 80 年 代 的 数字 计算 机 每 秒 只 能 执行 100 万 次 操作 。 今 天 的 计 
算 机 每 秒 能 够 执行 数 十 亿 次 操作 ， 并 且 通 过 将 数 千 个 内 核 连接 在 一 起 
实现 的 高 性 能 计算 机 ， 其 速度 比 以 前 快 上 百 万 倍 一 一 技术 性 能 得 到 了 
空前 的 提高 。 

“曼哈顿 计划 ?是 美国 在 无 法 保证 原子 弹 能 够 研制 成 功 的 情况 下 做 
出 的 260 亿 美元 的 赌注 (以 2016 年 的 美元 价值 计算 ; ， 最 大 的 秘密 惑 是 
它 的 确 有 成 功 的 盏 涉 。 当 使 用 玻 尔 兹 曼 机 可 以 训练 多 层 网 络 的 秘密 被 
公开 后 ， 许 多 新 的 学 习 算 法 如 雨 后 春 务 般 不 断 涌现 。 在 杰 弗 里 :六 顿 和 
我 妍 究 玻 尔 兹 曼 机 的 同时 ， 大 卫 : 鲁 姆 喻 特 开发 了 男 一 种 多 层 网 络 学 习 
算法 ， 而 后 来 的 实践 证 明 ， 这 种 算法 的 效率 更 高 。 人 四 


算法 的 优化 


优化 (Optimization) 是 机 器 学 习 中 一 个 关键 的 数学 概念 ， 对 于 许 
多 问题 ， 可 以 找到 一 个 代价 画 数 (cost function) ， 而 问题 的 解决 方案 
就 是 代价 最 低 时 的 系统 状态 。 对 于 霍 普 菲尔德 网 络 来 说 ， 代 价 画 数 就 
是 能 量 ， 目 标 是 找到 使 网 络 能 量 最 小 化 的 状态 〈 如 第 6 章 所 述 ) 。 对 于 
前 馈 网 络 ， 用 于 学 习 的 常用 代价 画 数 是 训练 集 输出 层 上 的 方差 之 
和 o “PERE FEE” (gradient descent) 是 一 种 能 够 最 小 化 代价 画 数 的 通用 
过 程 ， 实 现 方法 是 对 网 络 中 的 权重 沿 降低 代价 最 快 的 方向 进行 逐步 修 
改 。( 央 如 果 将 代价 画 数 看 作 山 脉 那么 梯度 下 降 就 是 选择 向 山脚 下 滑 
动 的 最 快 路 径 。 

鲁 姆 哈 特 发 现 了 如 何 通过 被 称 为 “误差 的 反 向 传播 ” (backprop- 
agation of errors) ， 或 简称 为 “ 反 传 ”(backprop) 的 过 程 来 计算 网 络 中 
每 个 权重 的 梯度 (见方 框 8.1) 。 从 误差 已 知 的 输出 层 开 始 ， 可 以 很 容 
易 地 计算 出 指向 输出 单元 的 输入 权重 的 梯度 。 下 一 步 就 是 使 用 输出 层 
梯度 来 计算 上 一 层 权重 的 梯度 ， 以 此 类 推 ， 逐 层 回 到 输入 层 。 这 是 一 
种 高 效 计算 误差 梯度 的 方法 。 

尽管 不 像 玻 尔 兹 曼 机 学 习 算法 那样 拥有 优雅 和 深厚 的 物理 学 根 
源 ， 但 是 反 向 传播 效率 更 高 ， 并 且 推 动 该 领域 取得 了 快速 进展 。 由 大 
卫 . 鲁 姆 哈 特 、 杰 弗 里 . 辛 顿 和 多 纳 德 .威廉 姆 斯 (Ronald Williams) 合 著 
的 经 典 的 反 向 传播 论文 于 1986 年 发 表 在 《自然 》 杂 志 上 ，( 电 迄今 为 
止 ， 该 论文 已 经 在 其 他 研究 论文 中 被 引用 超过 4 万 次 。 (世界 上 发 表 的 
所 有 论文 里 有 一 半 从 未 被 引用 过 ， 甚 至 连作 者 自己 都 不 引用 ， 一 篇 被 
引用 了 100 次 的 论文 都 会 在 领域 内 产生 巨大 反响 ， 所 以 很 显然 ， 这 篇 有 
关 反 向 传播 的 文章 是 一 颗 重 磅 炸弹 。) 


8.1 
误差 反问 传播 


误差 反 向 传播 


反 向 传播 网 络 的 输入 是 被 传播 的 前 馈 : 在 该 图 中 ， 左 侧 的 输 
入 通过 连接 〈 箭 头 ) 向 前 传播 到 隐藏 的 单元 层 ， 然 后 投影 到 输出 
层 。 输 出 结果 与 训练 者 给 出 的 值 进行 比较 ， 差 值 被 用 来 更 新 连接 
输出 单元 的 权重 ， 以 减少 误差 。 然 后 ， 根 据 每 个 权重 对 误差 贡献 
的 多 少 ， 通 过 反 向 传播 误差 对 输入 单元 和 隐藏 层 之 间 的 权重 进行 
更 新 。 利 用 大 量 样本 进行 训练 ， 隐 藏 单 元 生成 了 可 区 分 不 同 输入 
模式 的 选择 性 特征 ， 这 样 一 来 它们 就 能 够 在 输出 层 中 对 不 同类 别 
进行 区 分 。 这 一 过 程 被 称 为 “表征 学 习 ” (representation 
learning) 。 


语 首 合成 的 突破 


1984 年 ， 我 在 普林斯顿 昕 了 人 研究生 查尔斯 : 罗 森 伯 格 (Charles 
Rosenberg) 关于 玻 尔 效 受 机 的 演讲 。 虽 然 这 通常 是 我 演讲 的 题目 ， 但 
这 段 演 讲 还 是 令 我 印象 深刻 。 查 尔 斯 问 他 是 否 可 以 去 我 的 实验 室 参 与 
一 个 夏季 人 研究 项 目 。 他 来 到 巴尔 的 摩 时 ， 我 们 已 经 转 同 了 反问 传播 领 
域 ， 这 让 我 们 有 可 能 考虑 现实 级 别 的 问题 ， 而 不 是 之 前 处 理 的 那 种 玩 
具 级 别 的 问题 。 由 于 查尔斯 是 传奇 语言 专家 乔治 : 米 勒 (George 
Miller) 的 学 生 ， 我 们 想 寻 找 一 个 恰到好处 的 语言 问题 ， 既 不 会 难 到 完 
全 找 不 到 头绪 ， 又 不 会 容易 到 存在 现成 的 解决 方法 。 话 言 学 是 一 个 具 
有 许多 分 文学 科 的 广阔 领域 ， 例 如 : 音韵 学 (phonology) ， 涉 及 单词 
的 发 音 ; AE (syntax) ， 研 究 单 词 在 一 个 句子 中 是 如 何 排列 的 ; 
语义 学 (semantics) ， 研 究 单词 和 句子 的 含义 ; 还 有 语 用 学 
(pragmatics) ， 研 究 语 境 是 如 何 影响 语义 的 ， 等 等 。 我 们 决定 从 音 尊 
学 开始 着 手 。 

英语 是 一 种 特别 难 发 首 的 语言 ， 因 为 规则 很 复杂 ， 并 且 有 很 多 例 
外 情况 。 例 如 ， 如 果 一 个 单词 的 最 后 一 个 辅音 后 面 跟着 一 个 不 发 音 的 
字母 人 e”， 则 元 音 大 多 数 情 况 下 都 要 发 长 音 ， 如 “gave” 和 “brave”。 但 是 
也 有 例外 ， 例 如 “have”， 这 个 词 的 发 首 束 与 之 前 的 规则 相悖 。 我 在 图 
书馆 找到 了 一 本 书 ， 在 书 中 首 前 学 家 编纂 了 这 些 规则 和 例外 ， 厚 达 数 
百 页 。 通 第 例外 情况 中 也 会 有 规则 ， 而 有 时 例外 的 规则 中 还 存在 例外 
情况 。 总 之 ， 对 于 语言 学 家 来 说 ,，“- 一 路 下 来 "都 是 规则 。( 洁 更 让 人 抓 
耳 挠 腮 的 是 ， 同 样 一 个 单词 ， 并 不 是 每 个 人 的 发 音 都 一 样 。 还 存在 很 
多 方言 ， 每 种 方言 也 都 有 自己 的 一 套 规 则 。 


术 弗 里 邓 顿 在 我 们 计划 的 早期 阶段 到 约 除 ' 霍 普 金 斯 大 学 拜访 了 得 
尔 斯 和 我 ， 跟 我 们 说 他 认为 英语 发 音 太 难 掌握 了 “。 所 以 我 们 收 小 了 野 
心 ， 找 了 一 本 总 共有 大 约 100 个 字 的 儿童 早教 读物 。 我 们 设计 的 网 络 有 
一 个 由 7 个 字母 组 成 的 窗口 ， 每 个 字母 由 29 个 单元 (包含 空格 和 标点 符 
F) 表示 ， 共 203 个 输入 单元 。 人 研究 目标 是 预测 窗口 中 间 位 置 那个 字母 
的 读音 。 输 入 单元 与 80 个 隐藏 单元 相连 ， 隐 藏 单元 又 投射 到 26 个 输出 
单元 ,每 个 输出 单元 对 应 一 个 基本 发 音 ， 在 英语 里 被 称 为 “ 音 


位 ” (phonemes) 。 我 们 把 该 字母 发 音 网 络 叫 作 * 话 语 网 络 ”( 见 图 8- 
2) o OMAHE 629 个 权重 ， 按 照 1986 年 的 标准 衡量 ， 这 是 个 十 分 
庞大 的 数字 。 而 按照 当时 的 数学 统计 标准 来 看 ， 根 本 没 法 进行 操作 。 
有 了 这 么 多 的 参数 ， 我 们 被 告知 训练 集 可 能 会 被 过 度 拟 合 ， 导 致 网 络 
无 法 泛 化 。 

当 单 词 在 有 7 个 字母 的 窗口 中 依次 穿 过 时 ， 网 络 为 窗口 中 位 于 中 间 
的 字母 分 配 了 一 个 音 位 。 项 目 中 花费 时 间 最 长 的 部 分 ， 是 手动 将 音 位 
与 正确 的 字母 相 匹配 ， 因 为 字母 的 数量 与 每 个 单词 中 音 位 的 数量 不 
同 。 相 比 之 下 ， 学 习 过 程 就 发 生 在 我 们 眼前 ， 其 表现 随 着 句子 在 窗口 
中 循环 而 变 得 越 来 越 好 。 当 学 习 收 敛 时， 网 络 在 有 100 个 单词 的 训练 集 
中 的 表现 堪 称 完美 。 虽 然 对 新 单词 进行 测试 的 效果 很 差 ， 但 由 于 我 们 
对 在 这 样 一 个 小 的 训练 集 上 成 功 泛 化 的 预期 并 不 高 ， 所 以 这 个 初步 结 
果 仍 然 令 人 鼓舞 。 


训练 者 
b d 
/k/ 
输出 单元 OOOOOO 


ZIN 
ÁLLPLPTNNN 


输入 单元 ”OOOOD OOOO COCO OOOO OOOO COCO OOCO 
(_ a " e a t _ ) 


隐藏 单元 


图 8-2 话语 网 络 前 馈 网 络 模型 。 底 层 的 7 组 单元 代表 在 文本 间 移 动 的 窗口 中 的 字母 ， 每 次 提取 
一 个 字母 。 该 网 络 的 目标 是 正确 预测 位 于 中 间 位 置 的 字母 的 声音 ， 在 这 个 例子 中 就 是 很 难 发 
音 的 “c" 音 位 。 输 入 层 中 的 每 个 单元 与 所 有 隐藏 单元 都 建立 了 连接 ， 而 后 者 又 会 投射 到 输出 层 
上 的 所 有 单元 。 反 向 传播 学 习 算法 能 够 使 用 来 自 训练 者 的 反馈 来 训练 权重 。 正 确 的 输出 模式 
会 与 网 络 的 输出 结果 进行 比较 ， 在 这 个 例子 里 ， 输 出 的 是 “k* 音 位 ， 那 么 误差 就 会 被 反 向 传播 
给 前 面 若干 层 上 的 权重 。 


随后 ， 我 们 使 用 了 含有 2 万 个 字母 的 布朗 语料库 (Brown Corpus) 
( 因 ， 并 为 每 个 字母 指定 了 音 位 以 及 重音 标记 。 字 母 和 声音 的 对 应 工作 
花 了 几 周 的 时 间 ， 但 是 学 习 开 始 后 ， 网 络 在 一 个 晚上 就 吸收 了 整个 训 
练 集 的 信息 。 那 么 它 能 进行 泛 化 吗 ? 结果 证 明 ， 泛 化 的 结果 非常 漂 
亮 。 该 网 络 已 经 发 现 了 英语 发 音 的 规律 性 ， 并 且 可 以 识别 出 例外 情 
况 ， 所 有 这 些 都 是 基于 相同 的 架构 和 学 习 算法 。 虽 然 按照 今天 的 标准 
来 看 ， 这 一 成 果 微 不 足 道 ， 但 我 们 的 网 络 很 好 地 证 明了 反 向 传播 网 络 
如 何 能 够 有 效 地 表征 英语 音韵 。 这 是 我 们 得 到 的 第 一 个 暗示 ， 即 神经 
网 络 学 习 语言 (符号 表征 的 典型 代表 ) 的 方式 和 人 类 的 学 习 方式 相 
同 。 

在 获得 了 大 声 朗 读 的 能 力 后 ， 话 语 网 络 首先 经 历 了 一 个 胡言 乱 语 
的 阶段 ， 成 功 识 别 了 辅音 和 元 音 之 间 的 区 别 ， 却 将 音 位 “b” 分 配给 了 所 
有 辅音 ， 将 音 位 “a” 分 配给 了 所 有 的 元 音 。 刚 开始 ， 它 的 发 音 听 起 来 
像 *ba ba”， 经 过 更 多 的 学 习 之 后 ， 发 音 偏向 了 “ba ga da”。 这 种 现象 与 
婴儿 唤 呀 学 语 的 状态 非常 类 似 。 之 后 它 开 始 能 够 正确 地 说 出 短 词 的 发 
音 ， 最 后 在 训练 结束 时 ， 我 们 已 经 可 以 听 懂 它 说 的 大 多 数 单词 了 。 


为 了 测试 话语 网 络 在 方言 上 的 表现 ， 我 们 找到 了 一 个 来 自 洛杉矶 
郊外 的 拉丁 商 男 孩 接 受 采 访 时 的 音 前 翻录 材料 。 训 练 有 过 的 网 络 重新 
创建 了 一 段 该 男孩 种 有 西班牙 语 口 首 的 英语 ， 谈 论 的 是 他 探望 自己 的 
祖母 时 ， 有 了 时 会 得 到 糖果 。 通 过 将 话语 网 络 的 输出 播放 到 一 个 叫 
作 “DECtalk” 的 语 首 合成 偶 中 ， 一 捉 首位 标签 被 转换 为 可 听 的 语 首 ， 我 
记录 下 了 学 习 阶 段 中 的 一 系列 语音 片段 。 当 我 在 某 次 演讲 过 程 中 播放 
这 段 孙 音 时 ， 台 下 的 观众 彻底 震惊 了 一 一 这 个 网 络 直接 证 明了 它 的 语 
言 能 力 。 人 这 个 暑期 项 目的 结果 完全 超出 了 我 们 的 预期 ， 并 成 为 神经 
网 络 学 习 领 域 的 第 一 个 实际 应 用 。1986 年 ， 我 市 着 话语 网 络 参 加 了 

《今日 秀 》 (Today show) 市 目 ， 那 一 期 的 收视 率 很 惊人 。 在 此 之 
前 ， 神 经 网 络 一 直 是 一 门神 秘 的 学 科 。 我 还 遇 到 过 很 多 人 ， 他 们 在 观 
看 这 个 节目 时 是 第 一 次 听 到 神经 网 络 这 个 概念 。 


虽然 话语 网 络 有 力 地 证 明了 一 个 神经 网 络 的 确 能 够 对 语言 的 某 些 
方面 进行 表征 ， 但 它 并 不 是 反映 人 类 如 何 获得 阅读 技能 的 优质 模型 。 
Ase, 我们 在 学 习 阅 读 之 前 就 先 学 会 了 说 话 。 其 次 ， 有 限 的 几 个 语音 
规则 残 能 帮助 我 们 开局 大 声 精确 朋 读 的 复杂 任务 。 但 是 ， 大 声明 读 很 
快 就 变 成 了 快速 的 模式 识别 ， 并 不 需要 有 意识 地 应 用 规则 。 大 多 数 会 
说 英语 的 人 都 会 在 阅读 刘易斯 : 卡 罗 尔 (Lewis Carroll) 的 诗 
Jabberwocky 时 ， 不 由 自主 地 读 出 “brillig”、“slithy” 和 “toves” 等 无 意义 
的 词 ， 就 像 读 正常 的 词 一 样 ， 话 语 网 络 也 是 如 此 。 这 些 虚 构 的 词 不 存 
在 于 任何 字典 中 ， 但 是 可 以 触发 由 英语 中 相关 字母 模式 组 成 的 音 位 。 


话语 网 络 给 观众 留 下 了 深刻 的 印象 ， 不 过 现在 ， 查 尔 斯 和 我 需要 
对 这 个 网 络 进行 分 析 ， 表 清楚 它 到 底 是 如 何 工作 的 。 为 此 ， 我 们 对 隐 
藏 单元 中 的 活动 模式 进行 了 聚 类 分 析 (cluster analysis) ， 并 发 现 话语 
网 络 察觉 到 了 相似 的 元 音 和 辅音 的 分 类 ， 这 和 语言 学 家 们 已 经 识别 出 
的 分 类 相同 。 马 克 . 塞 登 伯 格 (Mark Seidenberg) 和 詹姆斯 .麦克 莱 兰 采 
用 了 一 种 类 似 的 方法 作为 研究 的 起 点 ， 将 其 与 儿童 在 学 习 阅读 时 经 历 
的 一 系列 阶段 进行 了 详细 比较 » © 


话语 网 络 以 出 人 意料 的 方式 影响 了 这 个 世界 。 作 为 约翰 : 霍 普 金 斯 
大 学 托马斯 -詹金斯 (Thomas C. Jenkins) 生物 物理 系 的 一 名 教员 ， 我 
开始 对 蛋 蝗 质 折 受 的 问题 产生 了 兴趣 。 蛋 日 质 是 由 一 系列 氨基 酸 折 县 
成 的 复杂 的 结构 ， 该 结构 赋予 了 蛋白 质 广 泛 的 功能 ， 例 如 血红 和 蛋 日 ， 
它 能 够 与 血红 细胞 中 的 氧 结合 。 根 据 氨 基 酸 序列 来 预测 蛋 晶 质 的 三 维 
形状 是 一 个 难度 很 高 的 计算 问题 ， 对 大 多 数 蛋 白质 来 说 ， 即 便 使 用 功 
能 最 强大 的 计算 机 也 没 办 法 实现 。 然 而 ， 有 一 种 单元 结构 相对 更 容易 
预测 ， 被 称 为 二 级 结构 (secondary structures) 。 在 二 级 结构 中 ， 氨 基 
酸 以 晤 施 、 平 面 或 无 规 卷曲 的 方式 缠绕 。 生 物 物 理学 家 们 使 用 的 算法 
考虑 了 不 同 所 基 酸 的 化 学 性 质 ， 但 他 们 的 预测 还 不 足以 解决 三 维 空间 
的 折合 问题 。 


钱 宁 是 我 实验 室 的 一 年 级 研究 生 ， 他 是 1980 年 在 中 国 所 有 物理 系 
的 学 生 中 ， 为 数 不 多 被 选中 来 美国 攻读 研究 生 课程 的 人 之 一 。 我 们 想 
知道 ， 如 果 为 每 个 氨基 酸 分 配 螺 旋 、 平 面 或 无 规 卷 曲 的 参数 ， 话 语 网 
络 是 否 可 以 通过 一 串 氨基 酸 序列 来 预测 蛋白 质 的 二 级 结构 。 这 是 一 个 
重要 的 问题 ， 因 为 蛋白 质 的 三 维 结构 决定 了 它 的 功能 。 输 入 由 字母 序 
列 变 成 了 氨基 酸 序 列 ， 而 预测 的 结果 由 音 位 变 成 了 二 级 结构 。 训 练 集 
是 由 X 射 线 晶体 学 确定 的 三 维 结构 。 让 我 们 意 想 不 到 的 是 ， 它 对 于 新 
蛋白 质 的 二 级 结构 的 预测 ， 要 远 远 好 于 基于 生物 物理 学 的 最 佳 方法 ， 
( 则 这 一 具有 里 程 碑 意 义 的 研究 是 机 器 学 习 在 分 子 序列 中 的 首次 应 用 ， 
该 领域 现在 被 称 为 生物 信息 学 (bioinformatics) ° 


另 一 个 学 会 了 如 何 形成 英语 动词 过 去 时 的 网 络 ， 成 了 认 知 心理 学 
领域 中 备 受 争议 的 问题 ， 基 于 规则 的 保守 派 与 前 卫 的 PDP 人 研究 组 展开 
了 激烈 的 争论 。 针 形成 过 去 时 的 常规 方法 是 给 英文 动词 加 上 后 
级 “ed”， 例 如 把 “train” 变 成 “trained”。 但 是 有 不 规则 形式 的 例外 ， 例 如 
把 “run” 变 成 “an”。 神 经 网 络 可 以 很 好 地 适应 规则 和 例外 情况 。 虽 然 人 
们 在 这 一 点 上 已 经 很 少 争 论 了 ， 但 关于 规则 的 显 式 表征 (explicit 
representation) 在 大 脑 中 的 角色 这 一 问题 ， 仍 然 有 待 回答。 最 近 利 用 
神经 网 络 学 习 语 言 的 实验 支持 了 届 折 形态 学 (inflectional 
morphology) 中 的 逐步 获取 概念 ， 这 与 人 类 的 学 习 方 式 是 一 致 的 。( 迪 
深度 学 习 与 谷歌 翻译 和 其 他 上 自然 语言 应 用 相 结 合 ， 在 捕捉 语言 细微 差 
别 上 获得 的 成 功 ， 进 一 步 支持 了 大 脑 不 需要 使 用 显 式 语 言 规 则 的 可 能 
性 ， 即 便 其 实际 行为 可 能 体现 了 相反 的 结论 。 

ANH eds KEREN (David Touretzky) 和 我 于 1986 年 在 
卡 内 基 - 梅 隆 大 学 组 织 了 第 一 期 联结 主义 暑期 课程 ( 见 图 8-3) ， 那 时 
候 只 有 少数 几 所 大 学 开设 了 神经 网 络 课程 。 在 一 个 基于 话语 网 络 的 小 
游戏 中 ， 学 生 们 逐 层 列队 ， 每 个 学 生 代表 网 络 中 的 一 个 单元 (尽管 他 
们 在 传播 *Sejnowski> 中 的 和 2 时 发 生 了 错误 ， 因 为 它 的 发 音 类 似 
于 “y”， 并 不 遵循 英文 发 音 模式 ) 。 这 些 学 生 中 的 许多 人 随后 都 陆续 获 


得 了 重要 发 现 ， 并 开创 了 各 目的 事业 。1988 年 ， 第 二 期 暑期 谋 程 在 卡 
内 基 - 梅 隆 大 学 开办 ，1990 年 第 三 期 的 举办 地 是 加 州 大 学 圣迭戈 分 校 。 
新 的 想法 在 经 历 了 一 代 人 的 时 间 后 ， 才 进入 主流 人 研究 领域 。 这 些 暑 期 
课程 让 所 有 人 受益 菲 浅 ， 也 是 我 们 在 早期 推广 该 领域 的 最 佳 投 资 。 


nti 
s VM 


图 8-3 卡 内 基 - 梅 隆 太 学 1986 年 联结 主义 暑期 课程 的 学 生 。 太 弗 里 注 顿 是 第 一 排 右 数 第 三 位 ， 


他 的 两 边 分 别 是 我 〈 右 ) 和 詹姆斯 .麦克 莱 兰 。 这 张 照片 成 了 当今 神经 计算 领域 的 “名 人 录 ”。 
20 志 纪 80 年 代 的 神经 网 络 ， 很 像 是 存在 于 20 世 纪 的 21 世 纪 科 学 。 图 片 来 源 ， 杰 弗 里 : 辛 顿 。 


仲 经 网 络 的 重生 


由 鲁 姆 哈 特 和 麦克 莱 兰 编辑 的 两 卷 《 并 行 分 布 式 处 理 》 于 1986 年 
出 版 ,已 经 成 为 当今 的 经 典 著作 。 这 是 第 一 套 阐 述 神经 网 络 和 多 层 学 
习 算 法 对 理解 精神 和 行为 现象 的 影响 的 书籍 。 它 的 销量 超过 了 5 万 套 ， 
在 学 术 领 域 算得 上 是 畅销 书 了 。 神 经 网 络 在 经 过 了 反 向 传播 的 训练 
后 ， 其 隐藏 单元 具备 了 类 似 视觉 系统 中 皮层 神经 元 的 属性 ， 人 党 ) 而 且 其 


展现 出 的 故障 模式 ， 也 和 人 类 在 大 脑 受 损 后 产生 的 缺陷 有 很 大 的 相似 
te © 


弗朗西斯 : 克 里 克 是 PDP 人 小 组 的 成 员 ， 参 加 了 小 组 大 部 分 的 会 议和 
讲座 。 在 关于 并 行 分 布 式 处 理 模型 如 何 具 有 生物 特性 的 争论 中 ， 他 认 
为 应 该 将 它们 看 作 可 行 性 证 明 ， 而 不 是 大 脑 的 标准 模型 。 他 为 《并行 
分 布 式 处 理 》 一 书 撰写 了 其 中 一 个 章节 ， 介 绍 了 当时 我 们 所 了 解 的 大 
脑 皮 层 。 而 我 写 的 那 一 章 ， 则 总 结 了 当时 我 们 对 大 脑 皮 层 的 哪些 方面 
还 不 太 了 解 。 如 果 这 些 章 下 是 今天 写 下 的 ， 都 会 比 原来 的 版 本 要 长 得 
多 o 

20 世 纪 80 年 代 还 有 一 些 成 功 案 例 并 不 为 人 所 知 。 基 于 神经 网 络 技 
术 的 最 赚钱 的 公司 之 一 是 HNC Software BR 7s 8], B FERE d v RE— 
尼尔森 (Robert Hecht-Nielsen) 创立 ， 该 公司 使 用 神经 网 络 来 防止 信 
用 卡 欺诈。 赫 克 特 -尼尔森 曾 在 加 州 大 学 圣迭戈 分 校 的 电子 与 计算 机 工 
程 系 任 教 ， 教 授 过 一 门 关 于 神经 网 络 实际 应 用 的 热门 课程 。 每 天 都 有 
信用 卡 信息 被 全 球 网 络 犯罪 分 子 盗 取 。 信 用 卡 的 交易 数据 规模 十 分 庞 
大 ， 从 中 挑 出 可 疑 的 信息 是 一 项 艰巨 的 任务 。 在 20 世 纪 80 年 代 ， 工 作 
人 员 要 在 短 时 间 内 做 出 是 否 批准 或 拒绝 某 项 信用 卡 交 易 的 决定 ， 而 这 
导致 了 每 年 1500 多 亿美 元 的 交易 存 在 欺诈 行为 。HNC Software RA 
司 使 用 神经 网 络 学 习 算 法 ， 以 远 高 于 人 类 的 准确 度 检测 信用 卡其 放行 
为 ， 每 年 为 信用 卡 公 司 节 省 了 数 十 亿美 元 。2002 年 ，HNC 被 美国 个 人 
消费 信用 评估 公司 (Fair Isaac and Company, FICO) 以 10 亿 美元 的 价 
格 收购 ， 后 者 以 发 布 信用 评分 而 闻名 。 


观察 神经 网 络 的 学 习 过 程 顺 有 些 神奇 ， 它 不 断 以 微小 的 步伐 优化 
目 身 的 表现 。 这 个 过 程 会 十 分 缓慢 ， 但 是 如 果 有 足够 的 训练 样本 ， 并 
且 网 络 足 够 大 ， 学 习 算 法 就 可 以 找到 一 个 很 好 的 能 够 泛 化 的 表征 方 
式 ， 以 适应 新 的 输入 。 采 用 随机 选择 的 一 组 初始 权重 并 重复 该 训练 过 
程 时 ， 每 次 都 会 学 习 到 不 同 的 网 络 ， 但 都 具有 相似 的 性 能 。 许 多 网 络 
可 以 解决 同样 的 问题 ， 这 束 暗 示 了 当 我 们 重建 不 同 个 体 大 脑 的 完整 连 


接 集 时 ， 应 该 怀 有 何 种 期 待 。 如 果 许 多 网 络 表 现 出 了 相同 的 行为 ， 理 
解 它们 的 关键 就 在 于 大 脑 所 使 用 的 学 习 算 法 ， 而 这 个 算法 应 该 更 容易 
被 发 现 。 


理解 真正 的 深度 学 习 


在 凸 优 化 (convex optimization) 问题 中 ， 不 存在 局 部 最 小 值 ， 可 
以 保证 收敛 发 生 在 全 局 最 小 值 处 。 但 在 非 凸 优化 问题 中 ， 情 况 就 不 同 
了 。 优 化 专家 告诉 我 们 ， 由 于 在 隐藏 单元 网 络 中 学 习 是 一 个 非 凸 优化 
问题 ， 所 以 我 们 只 是 在 浪费 时 间 一 一 我 们 的 网 络 会 陷入 局 部 最 小 值 
( 见 图 8-4) 。 但 经 验证 据 表 明 ， 他 们 错 了 。 为 什么 呢 ? 我 们 现在 知 
道 ， 在 维度 很 高 的 空间 中 ， 代 价 函 数 的 局 部 最 小 值 是 很 罕见 的 ， 直 到 
学 习 的 最 后 阶段 才 会 出 现 。 在 早期 阶段 ， 几 乎 所 有 的 方向 都 是 下 坡 ， 
而 在 下 坡 的 过 程 中 存在 鞍点 ， 一 些 方向 会 错误 地 开始 上 升 ， 而 在 其 他 
维度 则 继续 下 降 。 产 生 网 络 会 A LA M 是 因为 解决 低 
维 空间 中 的 问题 时 ， 逃 生 方向 的 数量 要 少 得 
非 凸 代价 函数 


凸 代价 函数 


J(0) J(0) 


0 0 


图 8-4 JET ERTBUR DEC fr ERI o 32086 TEE CT ERGO) 绘制 为 参数 9 的 函数 。 凸 函数 只 
有 一 个 最 小 值 ( 图 ) ， 即 从 表面 任何 位 置 向 下 移动 都 可 达到 的 全 局 最 小 值 。 想 象 一 下 ， 你 
是 一 名 滑雪 者 ， 并 始终 将 滑雪 板 朝向 最 陡峭 的 下 坡 方 向 ， 保 证 你 一 定 会 滑 到 底 。 相 比 之 下 ， 
非 凸 代价 函数 可 以 包含 局 部 最 小 值 (AR) ， 这 些 则 是 陷阱 ， 让 你 无 法 通过 一 路 下 坡 找到 全 
局 最 小 值 。 因 此 ， 非 凸 代价 函数 很 难 优化 。 不 过 这 个 一 维 的 例子 具有 一 定 的 误导 性 。 当 有 许 
多 参数 时 (通常 在 神经 网 络 中 有 数 百 万 个 参数 ) ， 就 会 存在 鞍点 ， 即 在 某 些 维度 上 会 向 上 串 
起 ， 而 在 另 一 些 维度 上 向 下 四 陷 。 当 你 位 于 鞍点 上 时 ， 总 会 存在 一 个 下 坡 的 方向 。 


目前 的 深层 网 络 模型 有 数 百 万 个 单元 和 数 十 亿 的 权重 。 统 计 学 家 
在 传统 上 只 用 少量 参数 分 析 简单 模型 ， 这 样 就 可 以 用 较 小 的 数据 集 来 
证 明定 理 。 而 拥有 数 十 亿 个 维度 的 空间 对 他 们 来 说 简直 就 是 一 场 王 
梦 。 他 们 向 我 们 保证 ， 有 这 么 多 的 参数 ， 对 数据 的 过 度 拟 合 绝对 是 不 
可 避免 的 ， 我 们 的 网 络 只 会 简单 地 记 住 训练 数据 ， 但 无 法 泛 化 以 适应 
新 的 测试 输入 。 但 是 ， 使 用 正则 化 (regularization) 手段 ， 比 如 在 已 有 
权重 对 学 习 没有 任何 贡献 时 ， 可 以 通过 强迫 它们 进行 衰减 来 缓解 过 度 
拟 合 的 现象 。 

一 个 特别 巧妙 的 正则 化 技术 ， 叫 作 * 失 活 ” (dropout) ， 其 发 明 者 
是 杰 弗 里 . 辛 顿 。( 洁 在 每 个 学 习 周期 (epoch) ， 当 从 许多 训练 实例 中 
估计 出 梯度 ， 并 对 权重 进行 更 新 时 ， 有 一 半 的 单元 就 会 被 随机 地 暂时 
从 网 络 中 剔除 一 这 就 意味 着 ， 每 个 周期 中 训练 的 都 是 不 同 的 网 络 。 
其 导致 的 结果 就 是 ， 在 每 个 周期 中 需要 训练 的 参数 都 更 少 ， 并 且 与 在 
每 个 周期 中 训练 相同 的 大 型 网 络 相 比 ， 单 元 之 间 的 依赖 关系 更 少 。 失 
活 过 程 将 深度 学 习 网 络 的 错误 率 降低 了 10%， 这 是 一 个 很 大 的 改进 。 
2009 年 ， 网 飞 (Netflix) 举办 了 一 场 公 开 竞 赛 第 一 个 将 他 们 推荐 
系统 的 错误 减少 10% 的 人 ， 会 得 到 100 万 美元 的 奖金 。 付 几乎 每 个 机 器 
学 习 领 域 的 研究 生 都 参与 了 竞争 。 网 飞 的 这 笔 奖 金 很 可 能 启发 了 价值 
1000 万 美元 的 研究 。 现 在 ， 深 度 网 络 已 经 成 为 在 线 流 媒体 的 核心 技 
AG 

有 趣 的 是 ， 皮 层 突 触 会 以 很 高 的 速度 失 活 。 对 于 来 自 输入 的 放 
电 ， 上 皮层 中 典型 的 兴奋 性 突 触 都 有 90% 的 失败 率 。( 辐 这 就 像 一 个 棒球 
队 ， 几 乎 所 有 球员 的 击 球 成 功率 都 是 0.1。 大 脑 是 如 何 利 用 这 种 不 可 千 
的 皮层 突 触 来 实现 可 靠 的 功能 呢 ? 当 每 个 神经 元 上 存在 数 千 个 概率 突 
触 时 ， 其 活动 总 和 的 多 样 性 相对 较 低 ，( 辕 ) 这 意味 着 其 性 能 可 能 不 会 像 
你 想象 的 那样 大 规模 地 下 降 。 学 习 过 程 中 在 突 触 层面 发 生 失 活 的 好 
处 ， 可 能 远大 于 准确 性 降低 的 代价 。 而 且 由 于 突 触 需要 消耗 大 量 的 能 


量 ， 失 活 也 可 以 市 省 能 量 。 最 后 ， 皮 层 使 用 概率 来 计算 可 能 的 ， 而 非 
确定 的 结果 ， 所 以 使 用 概率 性 分 量 是 表示 概率 的 有 效 方式 。 


虽然 皮层 突 触 也 许 并 不 可 靠 ， 但 是 它们 的 强度 却 惊 人 的 精确 o E 
层 突 触 的 大 小 及 其 相应 的 强度 在 100 倍 的 范围 内 变化 ， 单 一 突 触 的 强度 
可 以 在 此 范围 内 增加 或 减少 。 与 得 克 了 萨 斯 大 学 奥斯汀 分 校 的 神经 解剖 
学 家 克 里 斯 汀 .哈里 斯 (Kristen Harris) 合作 ， 我 的 实验 室 最 近 重 建 了 
一 小 块 大 鼠 的 海马 体 ， 这 是 大 脑 中 形成 长 期 记忆 所 需 的 区 域 ， 其 中 包 
含 450 个 突 触 。 大 多 数 轴 突 会 在 树 突 的 分 支 上 形成 单个 突 触 ， 但 在 少数 
情况 下 ， 一 个 轴 突 的 两 个 突 触 会 接触 到 相同 的 树 突 。 令 人 惊讶 的 是 ， 
它们 的 尺寸 几乎 相同 ， 之 前 的 研究 经 验 告诉 我 们 ， 这 意味 着 它们 也 具 
有 相同 的 强度 。 人 们 已 经 了 解 了 导致 这 些 突 触 强度 发 生变 化 的 条 件 。 
这 些 突 触 的 强度 变化 取决 于 输入 尖峰 的 历史 和 树 突 响应 的 电 活动 ， 对 
于 来 自 同 一 个 树 突 上 相同 轴 突 的 一 对 突 触 来 说 也 是 如 此 。 根 据 这 些 观 
察 ， 我 们 推断 信息 存储 在 突 触 强度 中 的 精度 很 高 ， 足 以 存储 至 少 5 位 信 
息 。 人 所 深度 循环 网 络 的 学 习 算法 只 需要 5 位 就 能 实现 高 水 平 的 性 能 ， 
这 很 可 能 不 是 巧合 S 

大 脑 网 络 的 维度 非常 高 ， 我 们 对 其 甚至 没有 很 好 的 估计 。 大 脑 皮 
层 中 的 突 触 总 数 约 为 100 万 亿 ， 几 乎 是 个 天 文 数字 。 人 类 的 寿命 不 过 几 
十 亿 秒 。 以 这 样 的 速度 ， 你 可 以 为 你 生活 中 的 每 一 秒 贡 献 出 10 万 个 突 
触 。 在 实际 情况 中 ， 神 经 元 往往 具有 聚集 的 局 部 连接 ， 例 如 在 由 10 亿 
个 突 触 连接 的 由 10 万 个 神经 元 组 成 的 皮层 柱 内 。 昌 然 这 仍然 是 一 个 很 
大 的 数字 ， 但 还 远 算 不 上 天 文 数字 。 长 距离 连接 比 本 地 连接 要 少 得 
多 ， 因 为 神经 连接 会 占用 宝贵 的 空间 ， 并 且 会 消耗 大 量 能 量 。 

代表 皮层 中 一 个 对 象 或 概念 的 神经 元 的 数量 ， 是 一 个 重要 的 数 
字 。 粗 略 估计 一 下 ， 需 要 的 突 触 数量 约 为 10 亿 ， 需 要 的 神经 元 数量 约 
为 10 万 ， 分 布 在 10 个 皮层 区 域 中 。 信 也 就 是 说 ， 约 10 万 个 独立 的 、 互 
不 干扰 的 对 象 类 别 和 概念 存储 在 100 万 亿 个 突 触 中 。 在 实际 情况 中 ， 代 
表 相 似 对 象 的 神经 元 群 是 重 到 的 ， 这 可 以 大 大 增加 皮层 表达 相关 对 象 


和 对 象 之 间 关 系 的 能 力 。 这 种 能 力 在 人 类 中 比 在 其 他 哺乳 动物 中 要 强 
大 得 多 ， 因 为 人 类 大 脑 中 的 联合 皮层 (associative cortex， 在 感官 和 运 
动 层级 的 上 方 ) 在 进化 过 程 中 发 生 了 显著 的 扩张 。 


高 维 空间 中 概率 分 布 的 研究 在 20 世 纪 80 年 代 还 是 一 个 相对 而 言 末 
被 开发 的 统计 领域 。 有 几 位 统计 学 家 人 研究 了 在 探究 高 维 空间 和 高 维 数 
据 集 时 出 现 的 统计 问题 ， 例 如 斯 坦 福 大 学 的 里 奥 : 布 莱 曼 (Leo 
Breiman) ， 他 是 NIPS 社 区 中 的 一 员 。 来 目 该 社区 的 一 些 人 ， 例 如 加 
州 大 学 伯克利 分 校 的 迈克 尔 : 乔 丹 (Michael Jordan) 也 在 统计 系 任职 。 
然而 大 多 数 情况 下 ， 大 数据 时 代 的 机 需 学 习 已 经 发 展 到 了 令 统计 学 家 
望 而 生 晨 的 程度 。 但 仅仅 通过 训练 大 型 网 络 来 做 出 令 人 惊叹 的 事情 是 
不 够 的 ， 我 们 也 需要 分 析 和 理解 它们 是 如 何 做 到 的 。 物 理学 家 在 这 方 
面 占据 了 领先 地 位 ， 由 于 神经 元 和 突 触 的 数量 越 来 越 大 ， 他 们 利用 了 
统计 物理 学 的 方法 来 分 析 学 习 的 特性 。 


2017 年 在 长 滩 举 办 的 NIPS 会 议 上 , “时 间 考 验 奖 ” (the Test of 
Time award) 被 授予 了 加 州 大 学 伯克利 分 校 的 本 杰 明 : 雷 希 特 
(Benjamin Recht) 和 谷歌 的 阿里 - 拉 希 米 (Ali Rahimi) 在 2007 年 联名 
发 表 的 NIPS 论 文 。( 央 该 论文 表明 ， 随 机 特征 可 以 有 效 地 提高 具有 一 层 
学 习 权重 网 络 的 性 能 的 有 效 方 法 ， 这 是 弗兰克 : 罗 森 布 拉 特 在 1960 年 通 
过 感知 器 的 试验 了 解 到 的 。 拉 希 米 在 获奖 后 的 演讲 中 发 出 了 对 机 器 学 
习 严 谨 性 的 强烈 呼吁 ， 他 感叹 深度 学 习 缺 乏 严谨 性 ， 并 嘲讽 它 为 “炼金 
术 ”。 我 当时 正 坐 在 早已 火 冒 三 丈 的 杨 立 昆 (Yann LeCun) 旁边 。 听 完 
演讲 ， 杨 立 昆 在 一 篇 博客 中 写 道 : “批评 整个 团体 (还 是 那个 领域 中 非 
MIA AA) 是 在 钻研 “炼金 术 :， 仅 仅 因为 我 们 目前 的 理论 工具 还 
没有 赶 上 我 们 的 实践 ， 这 是 十 分 危险 的 做 法 。 为 什么 危险 呢 ? 正 是 这 
种 态度 ， 导 致 机 器 学 习 社 区 将 神经 网 络 的 研究 搁置 了 超过 10 年 ， 尺 管 
有 充分 的 经 验证 据 表明 ， 它 们 在 许多 情况 下 运行 良好 。” (里 这 是 一 次 
经 典 的 站 贤 和 整洁 的 科学 方法 之 间 的 混战 。 想 要 取得 进展 ， 这 两 个 都 
是 不 可 或 缺 的 。 


种 经 网 络 的 局 限 性 


虽然 神经 网 络 可 以 给 出 一 个 问题 的 正确 答案 ， 但 目前 还 没有 办 法 
解释 它们 是 如 何 得 到 这 个 答案 的 。 例 如 ， 假 设 一 名 感到 胸部 刺 痛 的 女 
性 患者 来 到 急诊 室 。 这 是 心肌 梗死 的 一 种 症状 ， 需 要 立即 进行 干预 ， 
还 是 仅仅 是 由 一 种 严重 的 消化 不 良 引起 的 呢 ? 训练 有 素 的 神经 网 络 可 
能 会 比 医生 做 出 更 准确 的 诊断 ， 但 如 果 不 清楚 网 络 为 何 做 出 这 样 的 决 
定 ， 我 们 就 有 理由 不 信任 它 。 医 生 和 算法 一 样 ， 也 要 接受 一 系列 测试 
和 决策 点 的 指导 ， 通 过 常规 案例 进行 培训 。 但 问题 在 于 ， 有 些 罕见 的 
情况 并 不 在 他 们 算法 覆盖 的 范围 之 内 ， 而 神经 网 络 则 经 历 过 更 多 案例 
的 训练 ， 远 远 超过 一 般 医生 在 一 生 中 会 经 历 的 ， 网 络 可 能 会 很 好 地 捕 
捉 到 这 些 罕见 病例 。 但 是 ， 你 会 相信 无 法 解释 其 理由 ， 但 从 统计 上 来 
说 诊断 能 力 更 强 的 神经 网 络 ， 而 不 去 相信 看 似 有 赁 有 据 的 医生 吗 ? 事 
实 上 ， 那 些 能 够 精确 诊断 罕见 病例 的 医生 都 有 着 丰富 的 经 验 ， 并 且 大 
多 数 使 用 了 模式 识别 而 不 是 算法 。( 生 对 于 各 个 领域 的 最 高 级 别 专家 来 
说 ,情况 可 能 都 是 如 此 。 

正如 可 以 训练 网 络 来 提供 专业 的 诊断 ， 是 否 有 可 能 把 其 背后 的 解 
释 作 为 训练 集 的 一 部 分 ， 来 训练 网 络 对 其 行为 进行 解释 呢 ? 这 样 一 来 
也 许 还 可 以 帮助 改善 诊断 。 这 一 建议 是 存在 问题 的 ， 原 因 是 医生 给 出 
的 许多 解释 都 是 片面 的 、 过 度 简 化 的 ， 或 错误 的 。 每 一 代 医疗 实践 与 
前 一 代 相 比 都 发 生 了 巨大 的 变化 ， 因 为 人 体 的 复杂 性 大 大 超出 了 我 们 
目前 的 理解 能 力 。 如 果 我 们 可 以 通过 分 析 网 络 模型 的 内 部 状态 来 提取 
因果 解释 ， 就 可 能 会 产生 能 够 推动 医学 发 展 的 新 的 见解 和 假设 。 

神经 网 络 是 一 个 黑 盒 子 ， 其 理论 尚 无 法 被 理解 ， 这 个 陈述 对 大 脑 
也 成 立 。 事 实 上 ， 在 给 定 相同 数据 的 情况 下 ， 不 同 的 个 体 做 出 的 决定 
也 会 千差万别 。 我 们 的 确 还 不 清楚 大 脑 是 如 何 从 经 验 中 得 出 推论 的 。 
就 如 第 三 章 所 讨论 的 ， 结 论 并 不 总 是 基于 逻辑 ， 其 中 还 存在 认 知 仿 
差 。( 沁 此 外 ， 我 们 所 接受 的 解释 ， 往 往 仅 仅 是 合理 的 解释 或 似是而非 


的 故事 。 我 们 并 不 能 排除 某 一 天 某 个 非常 大 的 生成 网 络 会 突然 开始 说 
话 的 可 能 性 ， 到 时 我 们 就 可 以 向 它 寻 求解 释 了 。 我 们 是 否 应 该 期 待 ， 
能 从 这 样 的 网 络 获得 比 从 人 类 那里 得 到 的 更 好 的 故事 和 合理 的 解释 
WE? 回想 一 下 ， 意 识 并 不 涉及 大 脑 的 内 部 运作 。 深 度 学 习 网 络 通常 会 
按照 排名 次 序 提供 几 个 而 非 一 个 主要 的 预测 ， 这 为 我 们 提供 了 关于 结 
论 可 信 度 的 一 些 信息 。 监 督 神 经 网 络 只 能 解决 用 来 训练 网 络 的 数据 范 
围 内 的 问题 。 如 果 接 受过 类 似 案例 或 样本 的 培训 ， 神 经 网 络 应 该 在 新 
案例 做 出 一 个 很 好 的 插值 。 但 是 ， 如 果 一 项 新 的 输入 超出 了 训练 数据 
的 范围 ， 进 行 外 推 (extrapolation) 操作 就 比较 危险 了 。 这 应 该 不 会 令 
人 感到 惊讶 ， 因 为 同样 的 限制 也 适用 于 人 类 ;我 们 不 应 该 期 望 一 个 物 
理 领 域 的 专家 在 政治 问题 上 ， 甚 至 是 物理 学 中 他 专长 之 外 的 领域 ， 提 
供 良好 的 建议 。 但 是 ， 只 要 数据 集 足 够 大 ， 能 够 涵盖 全 部 的 潜在 输 
入 ， 网 络 对 新 输入 进行 的 泛 化 操作 ， 结 果 应 该 也 是 不 错 的 。 在 实践 
中 ， 人 们 倾向 于 使 用 类 比 ， 从 比较 熟悉 的 领域 推广 到 新 的 领域 ， 但 如 
果 两 个 领域 存在 本 质 上 的 不 同 ， 这 样 的 类 比 就 是 错误 的 。 

所 有 对 输入 进行 分 类 的 神经 网 络 都 存在 偏 倚 。 首 先 ， 对 分 类 类 别 
的 选择 就 引入 了 偏 倚 ， 这 种 偏 倚 反 映 了 我 们 如 何 对 世界 进行 分 解 。 例 
如 ， 训 练 一 个 网 络 来 检测 草坪 上 的 杂 草 是 非常 实用 的 。 但 是 怎么 定义 
EE? 一 个 人 认为 是 杂 草 ， 在 另 一 个 人 看 来 可 能 是 野花 。 分 类 是 一 
个 反应 文化 偏见 的 更 宽泛 的 问题 。 用 于 训练 网 络 的 数据 集 加 剧 了 这 种 
不 确定 性 。 例 如 ， 有 许多 公司 为 执法 机 构 提供 基于 面部 识别 的 犯罪 分 
子 识别 系统 。 黑 人 面部 识别 中 出 现 的 假 阳性 误 判 比 白人 面孔 多 ， 因 为 
用 于 训练 网 络 的 数据 库 中 有 更 多 的 白人 面孔 ， 你 拥有 的 数据 越 多 ， 准 
确 率 就 越 高 。( 汪 数据库 偏差 可 以 通过 重新 平衡 数据 来 纠正 ， 但 不 可 避 
IMPR Sener Oe 
的 决定 。 


男 一 个 反对 依赖 神经 网 络 的 理由 是 ， 人 们 可 能 会 以 公平 为 代价 来 
优化 利润 。 例 如 ， 如 末末 被 充分 代表 的 少数 群体 中 的 人 去 申请 住房 抵 


押 贷 款 ， 而 已 接受 过 数 百 万 次 申请 培训 的 神经 网 络 拒绝 了 该 申请 。 对 
网 络 的 输入 包括 当前 地 址 ， 以 及 与 少数 群体 高 度 相关 的 其 他 信息 。 因 
此 ， 即 使 有 反对 明确 歧视 少数 群体 的 法 律 ， 该 网 络 也 可 能 会 利用 这 些 
言 息 来 暗中 歧视 他 们 。 这 里 的 问题 不 在 于 神经 网 络 ， 而 在 于 我 们 让 它 
优化 的 代价 画 数 。 如 果 利 润 是 唯一 的 目标 ， 网 络 就 会 使 用 被 提供 的 任 
何 信息 来 最 大 化 利润 。 解 决 这 个 问题 的 方法 是 将 公平 性 作为 代价 画 数 
中 的 一 个 参数 。 虽 然 最 佳 解决 方案 是 在 利润 和 公平 之 间 找 到 一 种 明智 
的 平衡 ， 但 必须 在 代价 画 数 中 明确 这 种 平衡 ， 这 就 需要 有 人 决定 如 何 
权衡 每 个 目标 的 重要 性 。 那 些 人 文 和 社会 科学 领域 的 伦理 观点 应 该 为 
这 些 权 衡 提 供 指导 。 但 我 们 必须 时 刻 牢记 ， 选 择 一 个 看 似 公平 的 代价 
画 数 可 能 会 产生 意 想 不 到 的 后 果 。( 当 


伊 隆 : 马 斯 元 、 斯 带 分 - 鹤 金 以 及 立法 者 和 人 研究 人 员 ， 都 曾 呼 吁 对 人 
工 智 能 进行 规范 。2015 年 ，3722 位 人 工 智 能 和 机 右 人 人 研究 人 员 共 同 签 
署 了 一 封 公 开 信 ， 呼 吁 禁止 使 用 目 动 武 硕 : 


综 上 所 述 ， 我 们 认为 人 工 智能 在 很 多 方面 都 具有 造福 人 类 的 巨 
大 潜力 ， 这 也 应 该 是 该 领域 的 目标 。 但 开始 人 工 智能 军备 竞赛 不 是 
一 个 好 主意 ， 应 该 通过 法 令 禁止 超出 人 类 合理 控制 范围 的 自动 攻击 
性 武器 - (9) 


这 一 禁令 本 意 是 好 的 ,但 也 可 能 适得其反 。 并 非 所 有 国家 都 会 遵 
人 循 禁 令 。 俄 罗斯 总 统 普 泵 整 曾 发 表 过 这 样 的 言论 : 


人 工 智能 是 未 来 ， 不 仅 对 俄罗斯 来 说 是 这 样 ， 对 全 人 类 也 是 一 
样 。 它 带 来 了 巨大 的 机 会 ， 但 也 会 带 来 难以 预测 的 威胁 。 无 论 谁 成 
为 这 个 领域 的 领导 者 ， 都 将 统治 全 世界 。 包 ) 


全 面 禁令 的 问题 在 于 人 工 智能 不 是 一 个 孤立 的 领域 ， 而 是 一 个 拥 
有 许多 不 同 工 具 和 应 用 的 领域 ， 其 中 每 一 样 都 会 产生 不 同 的 结果 。 例 
如 ， 信 用 评分 的 自动 化 是 机 器 学 习 在 20 世 纪 80 年 代 的 早期 应 用 。 有 人 
担心 ， 如 果 他 们 碰巧 住 在 声誉 不 好 的 社区 内 ， 就 会 得 到 不 公正 的 评 
分 。 这 就 催生 出 了 对 用 于 计算 分 数 的 信息 进行 限制 的 法 律 规定 ， 并 要 
求 公司 通知 个 人 如 何 提高 分 数 。 每 个 申请 都 存在 不 同 的 问题 ， 最 好 根 
据 具体 情况 进行 处 理 ， 而 不 是 盲目 禁止 相关 研究 。() 


1987 年 学 术 休 假期 间 ， 我 拜访 了 索 尔 克 人 研究 所 的 弗 表 西 斯 :元 里 
克 ， 那 会 儿 我 在 加 州 理工 学 院 担任 神经 生物 学 Cornelis Wiersma 客 座 教 
授 。 弗 朗 西 斯 当时 正在 建立 一 个 实力 雄厚 的 视觉 研究 小 组 ， 这 是 我 特 
别 感 兴趣 的 研究 题目 之 一 。 我 在 教员 午餐 时 间 演 示 了 我 的 话语 网 络 样 
带 ，3 引 发 了 热烈 的 讨论 。 我 在 1989 年 扳 到 拉 葆 炎 ， 这 标志 着 我 从 约翰 : 
霍 普 金 斯 大 学 的 初级 教员 转变 为 索 尔 克 研 究 所 的 高 级 教员 ， 真 令 人 兴 
理 。 几 乎 在 一 夜 之 间 ， 很 多 机 会 都 癌 我 敞开 了 怀抱 ， 其 中 包括 霍华德 
休 斯 医 学 研究 所 (Howard Hughes Medical Institute) 的 一 项 任命 ， 该 
机 构 为 我 26 年 的 研究 提供 了 慷慨 的 支持 。 


1989 年 加 入 加 州 大 学 鞋 送 蕊 分校 时 ， 我 遗憾 地 发 现 ， 那 位 教授 我 
们 反 辣 传播 理论 的 大 卫 - 鲁 姆 哈 特 已 经 去 了 斯 坦 福 大 学 ， 在 那 之 后 我 很 
少 有 机 会 再 见 到 他 。 多 年 来 ， 我 注意 到 大 卫 的 行为 方式 发 生 了 令 人 不 
安 的 变化 。 最 终 ， 他 被 诊断 叫 有 额 杜 时 痢 有 一 F&A A AT BZ 
中 的 神经 元 会 逐渐 流失 ， 对 他 的 性 格 、 行 为 和 语言 造成 影响 。2011 
年 ， 鲁 姆 哈 特 在 他 68 罗 时 去 世 了 ， 那 时 他 已 经 认 不 出 家 人 或 朋友 了 。 


1. 加 州 大 学 圣迭戈 分 校 的 认 知 科学 系 ， 由 人 类 和 人 体 工 程 学 专家 唐 : 诸 曼 (Don 
Norman) 创立 ， 拥 有 一 文 不 拘 一 格 的 教师 队伍 。 

2. 反 向 传播 学 习 算法 中 使 用 的 数学 已 经 存在 了 一 段 时 间 ， 可 以 追溯 到 20 世 纪 60 年 代 的 
控制 理论 文献 ， 但 是 其 最 大 的 影响 体现 于 在 多 层 感知 器 中 的 应 用 。 参 阅 Arthur E. Bryson 
and Yu-Chi Ho, Applied Optimal Control: Optimization,Estimation, and Control(University of 
Michigan, Blaisdell, 1969). 


3. 


10. 


11. 


12. 


13. 


参阅 迈克 尔 工 乔丹 (Michael I. Jordan) 具有 权威 性 的 关于 现代 随机 梯度 下 降 的 演 
Wt : “On Gradient-Based Optimization: Accelerated, Distributed,Asynchronous， and 


Stochastic,” May 2, 2017, Simons Institute for the Theory of Computing, UC, Berkeley. 
https://simons.berkeley.edu/talks/michae-ljordan-2017-5-2/. 
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到 了 2000 年 ， 目 20 世 纪 80 年 代 兴 起 的 神经 网 络 热潮 已 经 退去 ， 神 
经 网 络 再 次 成 为 常规 科学 。 托 马 斯 ' 库 恩 (Thomas Kuhn) 曾 将 科学 革 
命 之 间 的 时 间 间 隔 描述 为 ， 科 学 家 在 一 个 已 经 确定 的 范式 或 解释 框 碎 
内 进行 理论 推定 、 观 察 和 试验 的 常规 工作 阶段 。( 导 1987 年 ， 杰 弗 里 . 辛 
顿 去 了 多 伦 多 大 学 ， 并 继续 着 渐进 式 改进 ， 虽 然 这 些 改进 都 没有 像 曾 
经 的 玻 尔 效 曼 机 那样 展现 出 魔力 。 伴 顿 在 21 世 纪 头 十 年 成 为 加 拿 大 高 
等 研究 院 (Canadian Institute for Advanced Research ， 简 称 CIFAR) 4# 
经 计算 和 目 适 应 感知 项 目 (Neural Computation and Adaptive 
Perception， 简 称 NCAP) 的 带头 人 。 该 项 目 由 来 自 加 拿 大 和 其 他 国家 
的 约 25 位 研究 人 员 组 成 ， 专 注 于 解决 机 器 学 习 的 难题 。 我 是 由 杨 立 昆 
担任 主语 的 NCAP 顾 问 委 员 会 的 成 员 ， 会 在 每 年 NIPS 会 议 召 开 之 前 参 
加 该 项 目的 年 会 。 神 经 网 络 的 先驱 们 在 缓慢 而 稳定 的 过 程 中 探索 了 机 
句 学 习 的 许多 新 策略 。 虽 然 他 们 的 网 络 有 许多 有 价值 的 应 用 ， 但 却 一 
直 没 有 满足 20 世 纪 80 年 代 对 该 领域 抱 有 的 很 高 的 期 望 。 不 过 这 并 没有 
动 揪 先驱 者 们 的 信念 。 回 想起 来 ， 他 们 一 直 是 在 为 飞跃 性 的 突破 英 定 
基础 。 


机 器 学 习 的 稳步 发 展 


NIPS 会 议 是 20 世 纪 80 年 代 神 经 网 络 的 贸 化 右 ， 为 其 他 可 处 理 大 型 
高 维 数据 集 的 算法 打开 了 大 门 。 弗 拉 基 米尔 ' 瓦 普 尼 死 的 文 持 癌 量 机 于 
1995:£ 5| TRD, 242012560 5E FOSLIBOR TERI A SS IER TTE RE T — 


个 新 篇 章 。 使 文 持 回 量 机 成 为 功能 强大 的 分 类 髓 ， 并 出 现在 每 个 神经 
网 络 工作 者 工具 包 中 的 ， 是 “内 核 技巧 ”(kernel trick) ， 这 是 一 种 数学 
转换 ， 相 当 于 将 数据 从 其 采样 空间 重新 映射 到 使 其 更 容易 被 分 离 的 超 
空间 。 托 马 索 : 波 吉 奥 开 发 了 一 种 名 为 “HMAX” 的 分 级 网 络 ， 可 以 对 有 
限 数 量 的 对 象 进行 分 类 。( 岂 这 表明 ， 网 络 的 性 能 会 随 着 其 深度 的 增加 
而 提高 。 

在 21 世 纪 的 头 几 年 里 ， 图 形 模 型 被 开发 出 来 ， 并 与 被 称 为 “ 贝 叶 斯 
网 络 ” (Bayes networks) 的 丰富 的 概率 模型 相 结合 ， 后 者 是 基于 18 世 
纪 英 国 数 学 家 托马斯 : 贝 叶 斯 (Thomas Bayes) 提出 的 一 个 定理 ， 该 定 
理 允 许 使 用 新 的 证 据 来 更 新 先前 的 信念 。 加 州 大 学 洛杉矶 分 校 的 朱 迪 
亚 : 珀 尔 ， 在 早 些 时 候 曾 将 基于 贝 叶 斯 分 析 的 “信念 网 络 ” (belief 
networks) (引入 人 工 智 能 ， 通 过 开发 能 够 利用 数据 在 网 络 中 学 习 概 
率 的 方法 ， 对 贝 叶 斯 分 析 进 行 了 加 强 和 扩展 。 这 些 网 络 以 及 其 他 网 络 
的 算法 为 机 器 学 习 人 研究 人 员 打 造 出 了 强大 的 工具 。 


随 着 计算 机 的 处 理 能 力 继续 呈 指 数 增长 ， 训 练 更 大 规模 的 网 络 成 
为 可 能 。 大 家 曾 普 和 认为 ， 具 有 更 多 隐 减 单元 、 更 宽 的 神经 网 络 ， 比 
具有 更 多 层 数 、 更 深 的 网 络 的 效果 更 好 ， 但 是 对 于 逐 层 训练 的 网 络 来 
说 并 非 如 此 ， 全 并 且 误差 梯度 的 消失 问题 (the vanishing error gradient 
problem) 被 发 现 减 慢 了 输入 层 附近 的 学 习 速 度 。( 归 然而 ， 当 这 个 问题 
最 终 税 克服 的 时 候 ， 我 们 已 经 可 以 对 深度 反 向 传播 网 络 进 行 训练 了 ， 
而 且 该 网 络 在 基准 测试 中 表现 得 更 好 。( 思 | 随 着 深度 反 向 传播 网 络 开始 
在 计算 机 视觉 领域 挑战 传统 方法 ，2012 年 的 NIPS 大 会 上 出 现 了 这 样 一 
fis: “神经 信息 处 理 系统 ”里 的 “神经 ”又 回来 了 。 

在 20 世 纪 的 最 后 10 年 以 及 21 世 纪 前 10 年 的 计算 机 视觉 领域 ， 在 识 
别 图 像 中 的 对 象 方面 取得 的 稳步 进展 ， 使 得 基准 测试 (用 于 比较 不 同 
方法 ) 的 性 能 每 年 能 提高 百 分 之 零 点 几 “。 方 法 改进 的 速度 十 分 缓慢 ， 
这 是 因为 每 个 新 类 别 的 对 象 ， 都 需要 有 关 专 家 对 能 够 将 它们 与 其 他 对 
象 区 分 开 来 所 需 的 与 姿态 无 天 的 特征 进行 杜 别 。 随 后 ， 在 2012 年 ， 杰 


弗 里 . 辛 顿 和 他 的 两 名 学 生 芯 力克 斯 . 克 里 泽 夫 斯 基 (Alex Krizhevsky) 
和 伊利 嫩 . 苏 特 斯 科 娃 向 NIPS 会 议 提交 了 一 篇 论文 ， 关 于 使 用 深度 学 习 
训练 AlexNet 识 别 图 像 中 的 对 象 ，AlexNet 是 本 章 要 重点 讨论 的 深度 卷 
积 网 络 。( 电 以 拥有 22 000 多 个 类 别 ， 超 过 1 500 万 个 标记 过 的 高 分 辩 率 
图 像 的 ImageNet 数 据 库 作为 基准 ，AlexNet 史 无 前 例 地 将 识别 错误 率 降 
(RENT 18% 。( 人 党 这 次 性 能 上 的 飞跃 在 计算 机 视觉 社区 中 掀起 了 一 股 冲 
击 波 ， 加 速 推动 了 更 大 规模 网 络 的 发 展 ， 现 在 这 些 网 络 几乎 已 经 达到 
了 人 类 的 水 平 。 到 2015 年 ，ImageNet 数 据 库 的 错误 率 已 降 至 3.6% 0 | 
当时 还 在 微软 研究 院 的 何 恺 明 及 其 同事 使 用 的 低 错 误 率 深度 学 习 网 
络 ， 在 许多 方面 都 与 视觉 皮层 十 分 相似 ; 这 类 网 络 由 杨 立 昆 最早 提 
出 ， 并 最 初 把 它 命 名 为 <Le Net”。 

20 世 纪 80 年 代 ， 杰 弗 里 . 辛 顿 和 我 第 一 次 见 到 这 个 法 国学 生 杨 立 昆 
( 见 图 9-1， 右 ) 。 他 9 岁 时 ， 就 深 受 1968 年 史诗 级 的 科幻 电影 《2001 
太空 漫游 》 (2001: A Space Odyssey) 中 的 任务 计算 机 HAL 9000 的 启 
发 ， 想 要 开发 人 工 智能 。 他 曾 独 立 发 明了 反 向 传播 误差 算法 的 一 种 版 
本 ， 并 记录 在 他 1987 年 的 博士 论文 中 ，( 电 之 后 他 就 搬 到 多 伦 多 ， 加 入 
了 杰 弗 里 的 团队 。 后 来 ， 他 转 去 了 美国 电话 电报 公司 (AT&T) 在 新 
泽 西 州 霍 姆 德尔 (Holmdel) 的 贝尔 实验 室 ， 在 那里 他 创造 了 一 个 可 以 
读 取 信件 上 的 手写 邮政 编码 的 网 络 ， 采 用 修订 的 美国 国家 标准 与 技术 
研究 院 (Modified National Institute of Standards and Technology， 人 简称 
MNIST) 数据 库 作 为 一 种 标记 数据 基准 。 每 天 有 数 百 万 封 信 件 需 要 递 
送 到 信箱 里 ， 而 今天 ， 这 个 过 程 是 完全 自动 化 的 。 同 样 的 技术 也 可 以 
用 来 自动 读 取 ATM 机 上 银行 支票 的 金额 。 有 趣 的 是 ， 最 难 的 部 分 其 实 
是 查找 支票 上 数字 的 位 置 ， 因 为 每 张 支票 都 有 不 同 的 格式 。 早 在 20 世 
纪 80 年 代 ， 杨 立 昆 就 显露 出 了 证 明 原 理 (学 者 们 擅长 的 事情 ) 并 将 之 
应 用 在 现实 世界 中 的 非凡 天 赋 。 后 者 要 求实 际 产 品 必须 经 过 严格 的 测 
试 ， 且 表现 稳健 。 


图 9-1 杰 r 弗 里 : 辛 顿 和 杨 立 昆 是 深度 学 习 领 域 的 大 师 。 en 高 等 研 


究 院 的 神经 计算 和 自 适 应 感知 项 目 会 议 上 拍摄 的 ， 该 项 目 是 深度 学 习 领域 的 及 化 器 。 图 片 来 
源 : 态 弗 里 . 泣 顿 。 


苍 积 网 络 的 渐进 式 改 进 


杨 立 昆 在 2003 年 去 了 纽约 大 学 后 ， 仍 继续 开发 他 的 视觉 网 络 ， 现 
在 被 称 为 卷 积 网 络 (ConvNet) ”( 见 图 9-2) 。 这 个 网 络 的 基本 结构 是 
基于 卷 积 的 ， 卷 积 可 以 被 想象 成 一 个 小 的 渭 动 滤波 紫 ， 在 滑 过 整 张 图 
像 的 过 程 中 创建 一 个 特征 层 。 例 如 ， 过 滤 侨 可 以 古 一 个 定向 边 毕 检测 
右 ， 吏 像 第 5 章 中 介绍 的 那样 ， 只 有 当 窗 口 对 准 图 像 中 具有 正确 方 同 或 
纹理 的 对 象 的 边缘 时 ， 才 会 产生 大 数值 输出 。 尽 管 第 一 层 上 的 窗口 只 
苹 图 像 中 的 一 小 块 区 域 ,但 由 于 可 以 有 多 个 滤波 器， 因此 在 每 个 图 块 
中 都 能 得 到 许多 特征 信息 。 第 一 层 中 与 儿 像 卷 积 的 减 波 郁 ， 与 大 卫 ' 休 
伯 尔 和 托 斯 坦 : 威 泽 尔 在 初级 视觉 皮层 中 发 现 的 “简单 细胞 ”类 似 〈 见 图 


。( 守 更 高 层次 的 滤波 器 则 对 更 复杂 的 特征 做 出 响应 。( 电 在 卷 积 
网 络 的 早期 版 本 中 ， 每 个 滤波 器 的 输出 都 要 通过 一 个 非 线 性 的 Sigmoid 
ERE (输出 从 0 平稳 地 增加 到 1) ， 这 样 可 以 抑制 弱 激 活 单元 的 输出 
(见方 框 7.2 中 的 Sigmoid 画 数 ) E 
二 层 的 窗口 覆盖 了 更 大 的 视野 区 域 ， 这 样 经 过 多 层 之 后 ， 就 会 存在 一 
些 能 接收 整个 图 像 输入 的 单元 。 x tities 
B. ERE PON TAU”, PURARA 
的 感受 野 。 接 着 ， 顶 层 的 单元 被 送 入 分 类 层 ， 与 其 中 的 所 有 分 类 单元 
连接 ， 再 采用 反 向 传播 误差 的 方式 训练 整个 网 络 ， 对 图 像 中 的 对 象 进 
行 分 类 。 


a Encoding ae... o» 
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Spatial convolution 


over image input 1 


图 9-2 视觉 皮层 与 卷 积 网 络 在 图 像 对 象 识别 上 的 比较 。 CEA) (a, b) 视觉 皮层 中 的 层级 结 
构 ， 从 视网膜 输入 到 初级 视觉 皮层 (V1) ， 经 过 丘脑 (RGC, LGN) 2) FRUIT RE (PIT, 
CIT, AIT) ， 展 示 了 视觉 皮层 区 域 和 卷 积 网 络 中 层次 的 对 应 关系 。 (FA) (c) AMAR 
作为 输入 映射 到 第 一 个 卷 积 层 ， 后 者 由 儿 个 特征 平面 组 成 ， 每 个 特征 平 看 代表 一 个 滤 流 器 ， 
类 似 在 视觉 皮层 中 发 现 的 定向 简单 单元 。 这 些 滤波 器 的 输出 经 过 阅 值 处 理 并 汇集 到 第 一 层 ， 
再 进行 归 一 化 处 理 ， 以 便 在 小 块 区 域 中 产生 不 变 的 响应 ， 类 似 于 视觉 皮层 中 的 复杂 细胞 (图 
中 方 框 : 线性 一 非 线 性 层 中 的 操作 ) 。 以 上 操作 在 网 络 的 每 个 卷 积 层 上 重复 。 输 出 层 与 来 自 
上 一 个 卷 积 层 的 全 部 输入 具有 全 面 的 连接 (每 个 输出 单元 都 有 上 一 层 全 部 单元 的 输入 ) 。 图 
片 来 源 : Yamins and DiCarlo, “Using Goal-Driven Deep Learning Models to Understand Sensory 
Cortex”, figure 1 ° 
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图 9-3 卷 积 网 络 第 一 层 的 滤波 器 。 每 个 滤波 器 都 作用 于 视野 中 的 一 小 块 图 像 区 域 。 顶 部 三 排 中 
滤波 器 的 优选 刺激 像 视觉 皮层 中 的 简单 细胞 一 样 具 有 定向 性 。 底 部 三 排 显示 的 优选 刺激 经 过 
了 扩展 ， 并 具有 复杂 的 形状 。 图 片 来 源 : Krizhevsky, Sutskever and Hinton, “ImageNet 
Classication with Deep Convolutional Neural Networks”, figure 3° 


卷 积 网 络 多 年 来 一 直 在 经 历 许 多 渐进 式 改 进 。 一 个 重要 的 补充 ， 
是 将 一 个 区 域 上 的 每 个 特征 聚合 起 来 ， 叫 作 “ 池 化 ”(pooling) 。 这 种 
操作 提供 了 一 种 平移 不 变性 (translation invariance) 的 量度 ， 类 似 于 


由 休 伯 尔 和 威 泽 尔 在 初级 视觉 皮层 中 发 现 的 复杂 细胞 ， 能 够 通过 一 个 
图 块 对 整个 视野 中 相同 方向 的 线 做 出 响应 。 田 一 个 有 用 的 操作 是 增益 
归 一 化 (gain normalization) ， 就 是 调整 输入 的 放大 倍数 ， 使 每 个 单元 
都 在 其 操作 范围 内 工作 ， 在 皮层 中 是 通过 反馈 抑制 (feedback 
inhibition) 实现 的 。Sigmoid 输 出 函数 也 被 线性 整流 函数 (rectified 
linear units， 人 简称 ReLUs) 取代 。 在 输入 达到 一 个 赋值 之 前 这 些 单元 的 
输出 都 为 零 ， 超 过 病 值 之 后 则 输出 和 输入 呈 线 性 增长 。 该 操作 的 优点 
在 于 : 低 于 靖 值 的 单元 被 有 效 地 排除 在 网 络 外 ， 这 更 接近 真实 神经 元 
H BEREH ° 


卷 积 网 络 的 每 一 个 性 能 的 改进 ， 其 育 后 都 有 一 个 工程 师 可 以 理解 
的 计算 理由 。 但 有 了 这 些 变 化 ， 它 越 来 越 接近 20 世 纪 60 年 代 我 们 所 了 
解 的 视觉 皮层 的 体系 结构 ， 尽 管 当时 我 们 只 能 去 猜测 简单 和 复杂 单元 
的 功能 古 什么 ， 或 者 层级 结构 顶部 的 分 布 式 表征 的 存在 意味 着 什么 。 
这 说 明了 生物 学 与 深度 学 习 之 间 存 在 相得益彰 的 共生 关系 的 潜力 。 


当 深 度 学 习 遇 到 视觉 层 级 结构 


加 州 大 学 圣迭戈 分 校 的 由 特 里 夏 . 丘 奇 兰 德 不 仅 是 心灵 哲学 家 ， 同 
时 也 研究 神经 哲学 。 人 后 知识 最 终 取决 于 大 脑 如 何 表达 知识 的 说 法 ， 显 
然 没 有 人 阻止 哲学 家 认为 知识 是 独立 于 世界 而 存在 的 一 种 东西 ， 用 伊 
ZIR R (Immanuel Kant) 的 话 来 说 ， 就 是 “Ding an sich” (WHA 
号 ) 。 但 同样 清楚 的 是 ， 如 果 我 们 《和 其 他 动物 一 样 ) 要 在 现实 世界 
中 生存 ， 硼 景 知 识 就 是 必 不 可 少 的 。 经 过 训练 的 多 层 神经 网 络 的 隐藏 
单元 之 间 的 活动 模式 ， 与 被 逐次 记录 下 的 大 量 生物 神经 之 间 的 活动 模 
式 存在 显著 的 相似 性 。 受 到 这 种 相似 性 的 驱动 ， 帕 特 里 夏 和 我 在 1992 
年 编写 了 《计算 脑 》 (The Computational Brain) 一 书 ， 为 基于 大 量 神 
经 元 的 神经 科学 研究 开发 了 一 个 概念 框架 。( 志 (该 书 现在 已 经 出 到 第 
二 版 了 ， 如 果 你 想 更 多 地 了 解 大 脑 式 的 运算 ， 这 会 是 一 本 很 好 的 入 门 
参考 。) 麻 省 理工 学 院 的 詹姆斯 - 狄 卡 罗 (James DiCarlo) 最 近 比 较 了 
猴子 视觉 皮层 层级 结构 中 不 同 神经 元 和 深度 学 习 神 经 网 络 中 的 单元 ， 
训练 它们 识别 相同 图 片 中 的 对 象 ， 分 别 观察 它们 的 响应 ( 见 图 9-2) 。 
CO Sii: 深度 学 习 网 络 中 每 层 神经 元 的 统计 特性 ， 与 皮层 层级 
结构 中 神经 元 的 统计 特性 非常 接近 。 

深度 学 习 网 络 中 的 单元 与 猴子 视觉 皮层 中 神经 元 性 能 存在 相似 
性 ， 但 其 原因 仍然 有 竺 研究 ， 尤 其 是 考虑 到 猴子 的 大 脑 不 太 可 能 使 用 
反 向 传播 方式 来 进行 学 习 。 反 辐 传 播 需 要 将 详细 的 错误 信号 反馈 给 神 
经 网 络 每 层 中 的 每 个 神经 元 ， 其 精度 比 生 物 神 经 网 络 中 已 知 反馈 连接 
的 精度 要 高 得 多 。 但 其 他 学 习 算法 在 生物 学 上 似乎 更 合理 ， 例 如 玻 尔 
效 曼 机 学 习 算 法 ， 该 算法 使 用 了 已 经 在 皮层 中 被 发 现 的 赫 布 突 触 可 塑 
性 。 这 引出 了 一 个 有 趣 的 问题 ， 是 否 存 在 一 种 深度 学 习 的 数学 理论 ， 
能 够 适用 于 一 大 类 学 习 算法 (包括 皮层 中 的 那些 ) 呢 ? 在 第 7 章 中 ， 我 
提 到 了 对 视觉 层级 结构 的 上 层 分 类 表面 的 分 析 ， 其 决策 表面 比 更 低层 


级 的 表面 更 平坦 。 对 决策 表面 的 几何 分 析 可 能 会 引出 对 深度 学 习 网 络 
和 大 脑 更 深入 的 数学 理解 。 


深度 学 习 神 经 网 络 的 一 个 优点 是 ， 我 们 可 以 从 网 络 中 的 每 个 单元 
提取 “记录 ”*"， 并 追踪 信息 流 从 一 层 到 为 一 层 的 转变 。 然 后 可 以 将 分 析 
这 种 网 络 的 策略 用 于 分 析 大 脑 中 的 神经 元 。 关 于 技术 的 一 个 奇妙 之 处 
在 于 ， 技 术 育 后 通常 都 有 一 个 很 好 的 解释 ， 并 且 有 强烈 的 动机 来 得 到 
这 种 解释 。 第 一 台 蒸 汽 发 动机 是 由 工程 师 根 据 他 们 的 直觉 建造 的 ， 解 
释 发 动机 如 何 工作 的 热力 学 理论 随后 出 现 ， 并 且 帮 助 提升 了 发 动机 的 
效率 。 物 理学 家 和 数学 家 对 深度 学 习 网 络 的 分 析 也 正在 顺利 进行 着 。 


有 工作 记忆 的 神经 网 络 


自 20 世 纪 60 年 代 以 来 ， 神 经 科学 已 经 走 过 了 漫长 的 道路 ， 从 我 们 
目前 对 大 脑 的 了 解 中 可 以 获得 很 多 东西 。1990 年 ， 帕 特 里 夏 :高 德 曼 - 
拉 奇 元 (Patricia Goldman-Rakic) 训练 了 一 只 猴子 来 记 住 一 个 地 点 ， 
作为 提示 ， 该 地 点 会 短暂 地 被 一 蔓 灯 照 亮 ， 她 还 训练 这 只 猴子 在 一 段 
时 间 的 延迟 之 后 ， 把 眼睛 移动 到 被 记 住 的 地 点 。( 电 在 记录 了 猴子 前 额 
叶 皮 层 的 活动 后 ， 她 在 报告 中 提 到 ， 一 些 最初 对 提示 做 出 回应 的 神经 
元 在 延迟 期 间 仍然 保持 活跃 状态。 心理 学 家 把 人 类 的 这 种 活动 称 为 “ 工 
作 记 忆 ”， 也 正 因 为 有 了 工作 记忆 ， 我 们 在 执行 任务 (比如 拨打 电话 号 
码 ) 时 ， 能 够 记 住 7+2 项 内 容 。 


传统 的 前 馈 网 络 将 输入 传 到 网 络 中 ， 一 次 传播 一 层 网 络 。 结 合 工 
作 记 忆 ， 可 以 使 后 续 的 输入 与 之 前 的 输入 在 网 络 中 留 下 的 痕迹 进行 交 
互 。 例 如 ， 把 法 语句 子 翻 译 成 英文 时 ， 网 络 中 的 第 一 个 法 语 单词 会 影 
啊 后 续 英 语 单 词 的 顺序 。 在 网 络 中 实现 工作 记忆 的 最 简单 方法 ， 是 添 
加 入 类 皮层 中 常见 的 循环 连 授 。 神 经 网 络 中 某 一 层 内 的 循环 连 授 和 之 
前 那些 层 的 反馈 连接 ， 使 得 输入 的 时 间 序 列 可 以 在 时 间 上 整合 起 来 。 


这 种 网 络 在 20 忆 纪 80 年 代 被 探索 并 广泛 应 用 于 语音 识别 。( 电 在 实践 
中 ， 它 在 具有 短程 依赖 性 的 输入 方面 效果 很 好 ， 但 当 输入 之 间 的 时 间 
间隔 很 长 ， 输 入 的 影响 会 随 着 时 间 的 推移 发 生 衰减 ， 网 络 性 能 就 会 变 
其 o 

1997 年 ， 赛 普 . 霍 克 莱 特 (Sepp Hochreiter) 和 尤 尔 根 : 施 密 德 胡 博 
(Jürgen Schmidhuber) 找到 了 一 种 方法 来 克服 衰变 问题 ， 他 们 称 之 
为 “长 短期 记忆 ” (long short-term memory， 人 简称 LSTM) ° ee 
下 ， 长 短期 记忆 会 传递 原始 信息 ， 而 不 会 发 生 衰减 (这 就 是 猴子 前 额 
叶 皮 层 的 延迟 期 中 发 生 的 事情 ) ， 并 且 它 也 有 一 个 复杂 的 方案 来 决定 
如 何 将 新 的 输入 信息 与 旧 信 息 整 合 。 于 是 ， 远 程 依赖 关系 可 以 被 选择 
性 地 保留 。 神 经 网 络 中 这 种 工作 记忆 版 本 沉寂 了 长 达 20 年 之 久 ， 直 到 
它 在 深度 学 习 网 络 中 再 次 被 唤醒 和 实现 。 长 短期 记忆 和 深度 学 习 的 结 
合 在 许多 依赖 输入 输出 序列 的 领域 都 取得 了 令 人 瞩目 的 成 功 ， 例 如 电 
影 、 音 乐 、 动 作 和 语言 。 

施 密 德 胡 博 是 位 于 瑞士 南部 提 契 诺 州 (Ticino) 曼 诺 小 镇 的 Dalle 
Molle 人 工 智能 研究 所 的 联合 主任 。 该 小 镇 靠近 阿尔 卑 斯 山 ， 周 围 有 一 
些 绝 佳 的 徒步 地 点 。( 包 神经 网 络 领域 的 这 位 颇具 创造 性 、 特 立 独行 
的 * 罗 德 尼 . 丹 泽 菲 尔 德 * 沁 相信 他 的 创造 力 并 没有 得 到 足够 的 赞誉 。 因 
此 ， 在 蒙特 利 尔 举办 的 2015 年 NIPS 会 议 的 一 次 小 组 讨论 会 上 ， 他 再 次 
向 与 会 人 员 介绍 了 自己 ，“ 我 ， 施 密 德 胡 博 ， 又 回来 了 ”。 而 在 巴塞 罗 
那 举 行 的 2016 年 NIPS 大 会 上 ， 他 因 培 训 宣 讲 人 没有 对 自己 的 想法 给 
足够 的 关注 ， 而 打 乱 对 方 的 演讲 长 达 5 分 钟 。 


2015 年 ，Kelvin Xu 及 其 同事 在 用 一 个 深度 学 习 网 络 识别 图 像 中 对 
象 的 同时 ， 还 连接 了 一 个 长 短期 记忆 循环 网 络 来 标注 图 片 。 使 用 来 目 
深度 学 习 网 络 第 一 届 识 别 的 场景 中 所 有 对 象 作 为 输入 ， 他 们 训练 长 短 
期 记忆 循环 网 络 输出 一 串 英 文 单词 ， 能 够 形容 一 个 标注 中 的 场景 X 
图 9-4) 。 他 们 还 训练 了 长 短期 记忆 网 络 来 识别 图 像 中 的 位 置 ， 使 其 对 
应 于 标注 中 的 每 个 单词 。( 思 该 应 用 令 人 印象 深刻 的 地 方 在 于 ， 长 短期 


记忆 网 络 从 未 被 训练 来 理解 标注 中 句子 的 侣 义 ， 只 是 根据 图 像 中 的 对 
象 及 其 位 置 输出 一 个 语法 正确 的 单词 串 。 再 加 上 第 8 草 里 早期 的 话语 网 
络 示例 ， 这 更 加 证 明了 神经 网 络 似乎 对 语言 有 种 亲和力 ， 但 其 中 的 原 
因 我 们 却 不 得 而 知 。 通 过 分 析 长 短期 记忆 网 络 也 许 会 引出 一 种 新 的 语 
言 理论 ， 它 将 阐明 网 络 的 工作 原理 和 目 然 语言 的 性 质 。 


生成 式 对 抗 网 络 


在 第 7 章 中 ， 玻 尔 效 曼 机 被 当 作 一 个 生成 模型 进行 了 介绍 ， 当 输出 
被 钳制 到 一 个 它 已 训练 识别 的 类 型 中 ， 并 且 其 活动 模式 癌 下 活 透 到 答 
入 层 时 ， 就 可 以 产生 新 的 输入 样本 。 伊 恩 : 古 德 费 洛 (Ian 
Goodfellow) ^ ZJ-BME-Zk zi & (Yoshua Bengio) 和 他 们 在 蒙特 利 尔 大 
学 的 同事 们 表示 ， 可 以 训练 前 馈 网 络 ， 在 对 抗 的 背景 (adversarial 
context) 下 生成 更 好 的 样本 。( 岂 一 个 生成 卷 积 网 络 可 以 通过 尝试 欺骗 
男 一 个 卷 积 神经 网 络 来 训练 生成 优质 的 图 像样 本 ， 后 者 必须 决定 一 个 
输入 的 图 像 是 真实 的 还 是 虚假 的 。 生 成 网 络 的 输出 被 用 来 作为 一 个 经 
过 训练 的 判别 卷 积 网 络 (discriminative convolutional network) 的 输 
入 ,后 者 只 给 出 一 个 单一 的 输出 如果 输 入 是 真实 图 像 ， 就 返回 1， 否 
则 返回 0。 这 两 个 网 络 会 相互 竞争 。 生 成 网 络 试图 增加 判别 网 络 的 错误 
率 ， 而 判别 网 络 则 试图 降低 上 自身 的 错误 率 。 由 这 两 个 目标 之 间 的 紧张 
oo 拥有 令 人 难以 置信 的 照片 级 的 真实 感 〈 见 图 9-5) e 
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A bird flying Over a body of water 


A woman is throwing a frisbee in a park, A dog is standing on a hardwood floor, 
( 一 个 女人 在 公园 里 扔 飞盘 。) (一 只 狗 站 在 地 板 上 。) 


A little girl sitting on a bed with 
a teddy bear. in the water, 


(一 个 小 女孩 拿 着 泰 迪 熊 坐 在 床上 。) (一群 人 坐 在 船上 。) 


图 9-4 深度 学 习 为 图 片 做 标注 。 顶 部 的 一 组 图 片 说 明了 分 析 照 片 的 步骤 。ConvNet (CNN) 在 
第 一 步 中 标记 了 照片 中 的 对 象 ， 并 将 其 传递 给 循环 神经 网 络 (RNN) 。RNN 被 训练 输出 适当 
的 英文 单词 串 。 底 部 的 四 组 图 片 则 阐明 了 进一步 细 化 的 过 程 ， 即 使 用 注意 力 (AEZ) 来 表 
示 照 片 中 单词 的 指示 对 象 。 顶 图 来 源 : M. I. Jordan and T. M. Mitchell,“Machine learning: 

Trends, Perspectives, and Prospects,”Science349, no. 6245(2015): 255-260, 图 2. 底 图 来 源 : Xu et 


al., “Show, Attend and Tell,”2015, rev. 2016, figure1 and 3,https://arxiv.org/pdf/1502.03044. pdf, 
Coutesy of Kelvin Xu ° 


别 忘 了 ， 这 些 生成 的 图 像 是 合成 的 ， 它 们 中 的 对 象 并 不 存在 。 它 
们 是 训练 集中 未 标记 图 像 的 泛 化 版 本 。 请 注意 ， 生 成 式 对 抗 网 络 是 无 
监督 的 ， 这 使 得 它们 可 以 使 用 无 限 的 数据 。 这 些 网 络 还 有 许多 其 他 应 
用 ， 包 括 清除 具有 超 高 分 辨 率 的 星系 天 文 图 片 忆 中 的 噪声 ， 以 及 学 习 
表达 富有 情感 的 言语 。 包 


通过 慢 慢 地 改变 生成 式 网 络 的 输入 向 量 ， 有 可 能 逐渐 改变 图 像 ， 
使 得 部 件 或 零碎 物品 (如 窗户 ) 逐渐 显现 或 变 成 其 他 物体 (如 橱 
柜 ) 。 人 (过 更 值得 关注 的 是 ， 有 可 能 通过 添加 和 减 去 表示 网 络 状态 的 向 
量 以 获得 图 像 中 对 象 的 混合 效果 ， 如 图 9-6 所 示 。 这 些 实验 的 意义 在 
于 ， 生 成 网 络 对 图 像 中 空间 的 表征 ， 正 如 我 们 如 何 描述 场景 的 各 个 组 
成 部 分 。 这 项 技术 正在 迅速 发 展 ， 其 下 一 个 前 沿 领 域 是 生成 逼真 的 电 
影 。 通 过 训练 一 个 反复 演绎 的 生成 式 对 抗 网 络 ， 与 类 似 玛丽 莲 . 梦 露 这 
样 的 演员 参 演 的 电影 进行 对 比 ， 应 该 有 可 能 创造 出 已 过 世 的 演员 出 演 
的 新 作品 。 


volcano (火山 ) 


图 9-5 生成 式 对 抗 网 络 (GAN) 。 顶 部 的 示意 图 展示 了 一 个 卷 积 网 络 ， 用 于 生成 一 组 样本 图 
像 ， 经 过 训练 后 可 以 欺骗 判别 卷 积 网 络 。 左 边 的 输入 是 100 维 的 随机 选取 的 连续 值 向 量 ， 用 来 
生成 不 同 的 图 像 ， 输 入 的 向 量 随 后 激活 空间 尺度 逐 层 变 大 的 滤波 器 层 。 下 方 的 图 显示 了 通过 
训练 来 自 单个 类 别 照片 的 生成 式 对 抗 网 络 产 生 的 样本 图 像 。 顶 图 来 源 : A. Radford, L. Metz, 
and S. Chintala, “Unsupervised Representation Learning with Deep Convolutional Generative 
Adversarial Networks,” 图 1, arXiv:1511.06434, https://arxiv.org/pdf/1511.06434.pdf， 由 Soumiyh 
Chintala 提 供 ;， 底 图 来 源 : A. Nguyen, J. Yosinski, Y. Bengio, A.Dosovitskiy, and J. Clune, “Plug & 
Play Generative Networks: Conditional Iterative Generation of Images in Latent Space,” figure1, 
https: //arxiv.org/pdf/1612.00005.pdf, 由 Ahn Nguyen 提 供 。 


戴 着 眼镜 的 男人 BA 


戴 着 眼镜 的 女人 


图 9-6 生成 式 对 抗 网 络 中 的 向 量 算法 。 用 面部 图 片 训练 的 生成 式 网 络 的 输入 混合 后 ， 产 生 了 输 
出 〈 左 图 ) ， 然 后 通过 添加 或 减 去 选 定 的 输入 向 量 进行 输出 ， 就 创建 出 了 混合 后 的 图 像 (A 
A) 。 因 为 混合 是 在 最 高 的 表征 层 完成 的 ， 所 以 部 位 和 姿势 是 无 颖 接合 的 ， 并 不 会 经 过 变形 
过 程 中 那样 的 平均 处 理 。 图 像 改编 自 : A. Radford, L.Metz, and S. Chintala, “Unsupervised 
Representation Learning with Deep Convolutional Generative Adversarial Networks,” fifigure7 , 
arXiv:1511.06434,https://arxiv.org/pdf/1511.06434/ ° 


这 是 米兰 的 时 装 周 ， 衣 着 光鲜 的 模特 们 带 着 超凡 脱俗 的 表情 在 T 
台 上 走秀 ( 见 图 9_7) 。 时 尚 界 正在 经 历 瞳 潮涌 动 :““ 很 多 工作 正在 消 
失 ，: 西 尔 维 刀 . 文 图 里 尼 . 芬 迪 (Silvia Venturini Fendi) 在 她 的 上 时装 秀 
开场 前 说 道 ，“ 机 器 人 会 承担 旧 的 工作 ， 但 它们 唯一 无 法 取代 的 就 是 我 
们 的 创造 力 和 思维 。”> 汪 现在 想象 一 下 经 过 训练 的 新 一 代 对 抗 网 络 ， 
它们 可 以 生产 新 款式 和 高 级 时 装 ， 式 样 几乎 无 穷 无 尽 。 时 尚 界 可 能 
处 于 一 个 新 时 代 的 边缘 ， 而 许多 其 他 依赖 创意 的 行业 也 面临 着 相同 的 
处 境 。 


y 


图 9-7 2018 年 米兰 的 乔治 -阿玛尼 春 夏 


oh 


应 对 现实 社会 的 复杂 性 


当前 的 大 多 数学 习 算 法 是 在 25 年 前 开发 的 ， 为 什么 它们 需要 那么 
长 的 时 间 才 能 对 现实 世界 产生 影响 呢 ? 20 世 纪 80 年 代 的 研究 人 员 使 用 
的 计算 机 和 标记 数据 ， 只 能 证 明 玩 具 问 题 的 原理 。 尽 管 取得 了 一 些 似 
乎 硕 有 前 景 的 成 果 ， 但 我 们 并 不 知道 网 络 学 习 及 其 性 能 如 何 随 痢 单 元 
和 连接 数量 的 增加 而 增强 ， 以 适应 现实 世界 问题 的 复杂 性 。 人 工 智 能 
中 的 大 多 数 算法 缩放 性 很 差 ， 从 未 跌 出 解决 玩具 级 别 问题 的 范畴 。 我 
们 现在 知道 ， 神 经 网 络 学 习 的 缩放 性 很 好 ， 随 着 网 络 规模 和 层 数 的 不 
断 增 加 ， 其 性 能 也 在 不 断 增强 。 特 别 是 反 向 传播 技术 ， 它 的 缩放 性 非 
常 好 。 

我 们 应 该 对 此 感到 惊讶 吗 ? 大 脑 庆 层 是 哺乳 动物 的 一 项 发 明 ， 在 
灵 长 类 动物 ， 尤 其 是 人 类 中 得 到 了 高 度 发 展 。 随 着 它 的 扩展 ， 更 多 的 
功能 慢 慢 出 现 ， 并 且 更 多 层次 被 添加 a 到 了 关联 区 域 ， 以 实现 更 高 阶 的 


表征 。 很 少 有 复杂 系统 可 以 实现 如 此 高 级 的 缩放 。 互 联网 是 为 数 不 多 
的 已 经 被 扩大 了 100 万 倍 的 工程 系统 之 一 。 一 旦 通信 数据 包 协 议 建 立 起 
来 ， 互 联网 就 会 开始 进化 ， 正 如 DNA 中 的 遗传 密码 使 细胞 演化 成 为 可 
能 一 样 。 

使 用 相同 的 一 组 数据 训练 许多 深度 学 习 网 络 ， 会 导致 生成 大 量 不 
同 的 网 络 ， 它 们 都 具有 大 致 相同 的 平均 性 能 水 平 。 我 们 想 知道 的 是 ， 
所 有 这 些 同 等 优秀 的 网 络 有 哪些 共同 之 处 ， 而 对 单个 网 络 进行 分 析 并 
不 能 揭示 这 一 点 。 理 解 深 度 学 习 原 理 的 另 一 种 方法 是 进一步 探索 学 习 
算法 的 空间 ; 我们 只 在 所 有 学 习 算 法 的 空间 中 对 几 个 位 置 进行 了 抽样 
尝试 。 从 更 广泛 的 探索 中 可 能 会 出 现 一 种 学 习 计 算 理 论 ， 该 理论 与 其 
他 科学 领域 的 理论 一 样 深奥 ，( 沁 可 能 为 从 自然 界 中 发 现 的 学 习 算法 提 
供 更 多 的 解释 。 


蒙特 利 尔 大 学 的 约 书 亚 .本 吉 奥 三) ( 见 图 9-8) ， 和 杨 立 昆 一 起 ， 
接 蔡 术 弗 里 : 闻 顿 ， 成 为 CIFAR 神 经 计算 和 NCAP 项 目的 主任 ， 该 项 目 
在 通过 十 年 评估 后 更 名 为 “机 器 学 习 和 大 脑 学 习 ” 项 目 〈Learing in 
Machines and Brains) 。 约 书 亚 率领 蒙特 利 尔 大 学 的 一 个 团队 ， 和 致力 于 
应 用 深度 学 习 来 处 理 自 然 语言 ， 这 将 成 为 “机 器 学 习 和 大 脑 学 习 ” 项 目 
新 的 研究 重点 。 在 十 多 年 的 会 议 中 ， 这 个 由 20 多 名 教师 和 研究 员 组 成 
的 小 组 开启 了 深度 学 习 的 研究 。 过 去 5 年 来 ， 深 度 学 习 在 过 去 难以 解决 
的 许多 问题 上 取得 了 实质 性 进展 ， 这 些 进展 归功 于 小 组 成 员 的 努力 ， 
他 们 当然 只 是 一 个 更 庞大 社区 中 的 一 小 部 分 人 (将 在 第 11 章 探讨 ) 。 


á ke 

图 9-8 约 书 亚 : 本 吉 奥 是 CIFAR“ 机 器 学 习 和 大 脑 学 习 ” 项 目的 联合 主任 。 这 位 在 法 国 出 生 的 加 拿 
大 籍 计 算 机 科学 家 ， 一 直 是 应 用 深度 学 习 人 处 理 自然 语言 问题 这 个 领域 的 领导 者 。 杰 弗 里 : 辛 
下 FURIA E AER DURS ATER, 为 深度 学 习 的 成 功 黄 定 了 基础 。 图 片 来 源 : ZB 

尽管 深度 学 习 网 络 的 能 力 已 经 在 许多 应 用 中 得 到 了 证 明 ， 但 如 果 
单 靠 自身 ， 它 们 在 现实 世界 中 永远 都 无 法 存活 下 来 。( 时 它们 受到 了 研 
究 者 的 青睐 ， 后 者 为 其 提供 数据 ， 调 整 超 参数 ， 例 如 学 习 速 度 、 层 数 
和 每 层 中 的 单元 数量 ， 以 改善 收敛 效果 ， 还 为 其 提供 了 大 量 计算 资 
源 。 另 一 方面 ， 如 果 没 有 大 脑 和 身体 的 其 他 部 分 提供 支持 和 自主 权 ， 
大 脑 皮 层 也 无 法 在 现实 世界 中 存活 。 在 一 个 不 确定 的 世界 中 ， 这 种 支 
持 和 自主 权 是 一 个 比 模式 识别 更 难 解决 的 问题 。 第 10 章 将 会 介绍 一 种 
古老 的 学 习 算 法 ， 它 通过 激励 我 们 寻求 对 自身 有 利 的 经 验 来 帮助 我 们 
在 自然 界 中 生存 。 
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10 
关 励 学 习 


中 世纪 流传 下 来 这 样 一 个 故事 ;一 位 统治 者 为 了 感谢 发 明 国 际 象 
棋 的 人 ， 想 要 奖励 他 一 块 麦 田 。 发 明 人 请 求 在 棋盘 的 第 一 格 放 一 粒 麦 
子 ， 第 二 格 放 两 粒 ， 第 三 格 放 四 粒 ， 依 次 类 推 ， 剩 余 每 格 都 放 前 一 格 
两 倍 的 麦子 ， 直 到 放 满 64 格 的 棋盘 。 统 治 者 觉得 这 个 请 求 并 不 过 分 ， 
就 同意 了 “。 但 实际 上 ， 要 满足 这 一 请 求 ， 统 治 者 不 仅 要 拿 出 他 王国 里 
所 有 的 麦子 ， 还 要 加 上 全 世界 未 来 几 百 年 的 麦子 产量 才能 凑 够 ， 因 为 
最 后 一 格 要 放 的 麦 粒 数目 达到 了 264 (大 约 是 1019) 。 人 法 这 被 称 为 “ 指 
数 增长 ”。 在 国际 象棋 和 围棋 游戏 中 ， 棋 盘 不 同 布局 状态 的 增长 速度 比 
这 个 故事 里 麦子 数量 增加 的 速度 还 要 快 得 多 。 在 国际 象棋 中 ， 每 一 步 
棋 平 均 都 有 35 种 摆 法 ， 而 在 围棋 中 ， 分 支 系数 是 250， 这 就 使 得 围棋 的 
指数 增长 速度 要 快 得 多 。 


机 妖 如 何 学 会 下 棋 


游戏 的 好 处 就 在 于 ， 其 规则 都 有 明确 的 定义 ， 玩 家 对 棋盘 十 分 熟 

悉 ， 决 策 也 不 像 现 实 世 界 中 那样 复杂 ， 但 又 不 失 挑 战 性 。1959 年 ， 在 
商业 数字 计算 机 发 展 的 早期 IBM AY OL as 24 2] Z5 UR MEZ EB R 
(Arthur Samuel) 编写 了 一 个 擅长 玩 国际 跳棋 的 程序 ， 在 宣布 其 诞生 
的 当天 ，IBM 的 股票 就 获得 了 巨大 的 收益 。 西 洋 跳 棋 则 相对 容易 。 塞 
纱 尔 的 程序 利用 了 代价 函数 来 评估 对 局 中 不 同 布 阵 的 优 乡 情 况 ， 这 一 
点 跟 以 前 的 游戏 程序 很 相似 。 该 程序 是 在 IBM 第 一 葡 真 空 管 商用 计算 


机 IBM 701 上 运行 的 ， 它 在 一 个 方面 的 创新 令 人 印象 深刻 : 通过 跟 目 
CHF, ZAT T? 


在 转 到 位 于 纽约 约克 敦 海 次 的 IBM 托 马 斯 J. 沃 森 人 研究 中 心 之 前 ， 
杰 拉 人 德 . 特 索 罗 在 位 于 伊利 诺 伊 大 学 香槟 分 校 的 复杂 系统 研究 中 心 ， 与 
我 一 起 训练 神经 网 络 玩 西洋 双 陆 棋 ( 见 图 10-1) 。 沁 我 们 的 方法 是 ， 
使 用 专家 监督 来 训练 反 回 传播 网 络 ， 以 评估 当前 的 布局 和 可 能 的 把 
法 。 这 种 方法 的 缺陷 在 于 ， 该 程序 永远 比 不 过 专家 ， 而 专家 的 水 平 并 
未 达到 世界 冠军 的 级 别 。 然 而 通过 目 我 对 局 ， 网 络 可 能 会 有 更 出 色 的 
表现 。 当 时 目 我 对 局 面临 的 问题 是 ， 在 比赛 结束 时 ， 唯 一 的 学 习 信 和 号 
融 是 属 或 输 。 但 是 当 一 方 获胜 时 ， 应 该 归功 于 之 前 者 干 步骤 中 的 哪些 
步骤 呢 ? 这 被 称 为 “时 域 贡 献 度 分 配 问 题 ” (temporal credit assignment 
problem) 。 


图 10-1 西洋 双 陆 棋 棋 板 。 西 洋 双 陆 棋 是 一 种 通过 朝 着 终点 按 步 走 棋 来 分 出 胜 负 的 游戏 ， 红 色 
棋子 和 黑色 棋子 的 移动 方向 相反 〈 如 箭头 所 示 ) 。 图 中 标注 了 游戏 的 起 始 位 置 。 同 时 掷 出 两 
个 蜗 子 ， 得 到 的 两 个 数字 表示 两 个 棋子 可 以 向 前 移动 的 距离 。 


有 一 种 可 以 解决 这 种 时 域 页 献上 度 分 配 问题 的 学 习 算 法 ， 是 由 理 查 
德 . 萨 顿 (Richard Sutton) 于 1988 年 发 明 的 。( 汪 他 当时 正在 与 他 的 博 
士 生 导师 、 马 萨 诸 塞 大 学 阿 姆 赫 斯 特 分 校 的 安德鲁 : 巴 托 (Andrew 
Barto) ， 共 同 解决 强化 学 习 领 域 中 的 问题 。 强 化 学 习 (reinforcement 
learning) 是 受 动物 实验 中 的 关联 学 习 (associative learning) 所 启发 衍 
生出 的 一 个 机 器 学 习 研 究 分 支 领 域 ( 见 图 10-2) 。 深 度 学 习 的 唯一 工 
作 是 将 输入 转换 为 输出 。 强 化 网 络 与 之 不 同 ， 它 会 与 环境 进行 闭环 交 
互 ， 接 收 传感器 输入 ， 做 出 决定 并 采取 行动 。 强 化 学 习 的 基础 ， 是 观 
察 动物 怎样 通过 探索 环境 中 的 各 种 选择 并 从 结果 中 学 习 ， 从 而 在 不 确 
定 的 条 件 中 解决 难题 。 随 着 学 习 能 力 的 提高 ， 探 索 过 程 未 洁 减 少 ， 最 
终 会 直接 利用 学 习 过 程 中 发 现 的 最 佳 策 略 。 


观察 


图 10-2 强化 学 习 场 景 。 智 能 体 (agent) 通过 采取 行动 (actions) 和 进行 观察 (observation) 
来 积极 探索 环境 。 如 果 行 动 成 功 ， 执 行 器 将 得 到 奖励 (rewards) 。 该 过 程 的 目标 ， 是 通过 学 
习 怎 样 采取 行动 来 最 大 化 可 能 获得 的 奖励 。 

假设 你 必须 做 出 一 系列 决定 才能 达成 目标 。 如 果 你 已 经 知道 所 有 
潜在 的 选择 和 它们 各 上 自 可 能 带 来 的 奖励 ， 你 就 可 以 使 用 搜索 算法 一 一 


具体 来 说 ， 也 就 是 理 查 德 :贝尔 曼 (Richard Bellman) 的 动态 规划 算法 

(algorithm for dynamic programming) , CORRE REA LAR 
的 选择 集 。 但 是 随 着 可 能 的 选择 越 来 越 多 ， 问 题 的 规模 也 呈 指 数 级 增 
长 ， 这 被 称 为 “ 维 数 灾难 ” (curse of dimensionality) ， 本 章 的 开头 已 经 
对 其 进行 了 说 明 。 但 是 ， 如 果 在 选择 前 没有 获得 天 于 选择 结 采 的 所 有 
信息 ， 你 就 要 学 会 即时 做 出 最 好 的 选择 。 这 束 是 所 谓 的 “在 线 学 


2]" (online learning) 。 


理 查 德 . 萨 顿 ( 见 图 10-3) 的 在 线 学 习 算 法 依赖 于 期 望 奖 励 和 实际 
奖励 之 间 的 差异 (见方 框 10.1) 。 在 时 间 差 分 学 习 (temporal 
difference learning) 中 ， 你 需要 估计 出 在 当前 状态 下 做 出 行动 有 可 能 
带 来 的 长 期 奖励 (基于 已 得 到 的 奖励 而 得 出 的 较 好 估计 ) ， 以 及 下 一 
个 状态 中 潜在 的 长 期 奖励 ， 并 将 二 者 相 比 较 。 当 前 状态 得 到 了 实际 奖 
励 ， 因 此 估计 会 更 准确 。 通 过 计 之 前 的 估计 更 接近 改进 后 的 估计 ， 你 
做 出 的 决定 也 会 越 来 越 好 。 存 在 一 个 价值 网 络 ， 能 够 估算 出 棋 副 每 个 
位 置 上 的 未 来 奖励 ， 对 该 网 络 进行 的 更 新 则 被 用 于 决定 下 一 步 的 行 
动 。 在 你 有 足够 的 时 间 来 探索 不 同 的 可 能 性 后 ， 时 间 差 分 算法 会 收 全 
于 最 佳 规则 ， 指 导 如 何在 给 定 状 态 下 做 出 决策 。 维 数 灾难 是 可 以 避免 
的 ， 因 为 事实 上 ， 在 棋盘 所 有 可 能 的 位 置 中 有 一 小 部 分 会 被 访问 ， 但 
这 足以 为 新 对 局 中 类 似 的 棋盘 位 置 制定 出 好 的 策略 。 


图 10-3 2006 年 在 加 拿 大 埃 德 蒙 顿 阿尔 伯 塔 大 学 的 理 查 德 . 陕 顿 。 他 教会 了 我 们 获取 未 来 奖励 的 
学 习 方 法 。 理 查 德 是 一 位 癌症 幸存 者 ， 他 在 强化 学 习 方 面 一 直 是 领军 人 物 ， 并 在 持续 不 断 地 
开发 创新 型 的 算法 。 他 总 是 很 慷慨 地 和 别人 交流 ， 分 享 自 己 的 见解 ， 同 领域 的 每 个 人 对 此 都 
非常 赞赏 。 他 和 安德鲁 : 巴 托 合 著 的 书 《强化 学 习 导 论 》 (Reinforcement Learning: An 
Introduction) 是 该 领域 的 经 典 著 作 之 一 。 此 书 的 第 二 版 在 互联 网 上 可 以 免费 获取 。 图 片 来 
源 : 理 查 德 . 萨 顿 。 


杰 拉 德 . 特 索 罗 的 程序 名 为 “TD-Gammon”， 内 建 了 西洋 双 陆 棋 棋 盘 
和 规则 的 重要 特征 ， 但 它 并 不 知道 怎么 下 好 每 一 步 棋 。 在 学 习 的 初始 
阶段 ， 这 些 棋 步 是 随机 的 ， 但 最 终 某 一 方 会 局 ， 并 得 到 最 终 奖 励 。 西 
洋 双 陆 棋 的 电 家 是 第 一 个 将 其 所 有 棋子 从 棋 瘟 上 “剔除 ?出 来 的 玩家 


10.1 
时 间 差 分 学 习 


这 个 蜜蜂 大 脑 的 模型 能 够 选择 行动 (比如 落 在 一 朱 花 上 ) , 
以 最 大 化 未 来 所 有 的 折扣 奖励 (discounted rewards) : 


侧 抑 制 


R(D=rt+TI+Yrt+2+ y ret3+... 

ri+1 是 在 时 间 t+1 时 的 奖励 ，0 < y« 1 是 折扣 系数 。 基 于 当前 感 
官 输入 s(D) 的 预测 的 未 来 奖励 是 通过 神经 元 P 计 算出 来 的 : 

pels) = wysY+ Wbsb 

来 自 黄 色 (Y) ERMEE (B) 花灯 的 传感器 输入 被 分 别 以 wy 和 
web 加权。 位 于 时 间 t 的 奖励 预测 误差 5(t) 计算 方法 如 下 : 

of= retyPi(se) — Pt(st_1) 

rt 代表 当前 的 奖励 。 每 个 权重 的 改变 如 下 : 


dw t= adtSt—] 

a 代 表 学 习 速 率 。 如 有 果 当 前 奖励 大 于 预测 奖励 ， 且 6 十 正 值 ， 
奖励 出 现 之 前 的 感官 输入 的 权重 就 会 增加 ， 但 是 如 果 当 前 奖励 小 
T BEES, Aopeth, RAMAN MEMS Wa o 

Fr W 4% EB: Montague, P. R. and Sejnowski, T. J., The 
Predictive Brain:Temporal Coincidence and Temporal Order in 


Synaptic Learning Mechanisms, figure6 A ° 


由 于 唯一 的 实际 奖励 发 生 在 游戏 结束 时 ， 你 可 能 会 合理 地 推测 
TD-Gammon 将 首 移 学 习 游 戏 结局 ， 然 后 是 游戏 的 中 间 部 分 ， 最 后 是 开 
局 。 这 些 实际 上 是 发 生 在 “表格 强化 学 习 ” (tabular reinforcement 
learning) 的 过 程 ， 其 状态 空间 中 的 每 个 状态 都 对 应 着 一 个 数值 表 。 但 
它 与 神经 网 络 完全 不 同 神经 网 络 快速 锁定 输入 特征 中 的 简单 可 靠 
信号 ， 接 着 锁定 后 期 较 复 杂 、 不 太 可 靠 的 输入 信号 。TD-Gammon 学 习 
的 第 一 个 概念 是 “ 拿 走 棋子 >， 可 以 通过 对 表示 拿 走 棋子 数目 的 输入 特 
征 添 加 正 的 权重 来 实现 。 第 二 个 概念 是 “ 击 中 对 手 棋子 “一 这 是 一 个 
在 所 有 阶段 效果 都 相当 不 错 的 启发 式 做 法 ， 一 部 分 输入 单元 对 被 击 中 
的 对 手 棋子 的 数目 进行 了 编码 ， 可 以 通过 为 这 些 单 元 加 上 正 权重 进行 
学 习 。 第 三 个 概念 “避免 被 击 中 ， 是 对 第 二 个 概念 的 一 种 自然 反应 ， 
可 以 通过 对 可 能 被 击 中 的 单个 棋子 施加 人 负 权 重 来 学 习 。 第 四 个 概念 是 
通过 “积累 积分 ”来 阻止 对 手 前 进 ， 通 过 对 积分 输入 赋予 正 权 重 来 学 
习 。 理 解 这 些 基 本 概念 需要 完成 几 干 场 的 训练 棋局 。 通 过 一 万 场 棋 
局 ，TD-Gammon 会 学 习 到 中 级 概念 ;通过 10 万 场 棋 局 ， 它 开始 学 习 高 
级 概念 ;经历 了 100 万 场 棋局 后 ， 它 已 经 学 会 了 冠军 级 的 概念 ， 或 者 超 
越 了 20 世 纪 90 年 代 初 人 类 玩家 的 水 平 。 


杰 拉 德 : 特 索 罗 于 1992 年 问 全 世界 展示 了 TD-Gammon， 它 的 表现 
让 我 和 其 他 同行 都 感到 非常 惊讶 。 信 这 个 程序 的 价值 画 数 (value 
function) 是 一 个 具有 80 个 隐藏 单元 的 反 向 传播 网 络 。 在 30 万 场 比赛 之 
后 ， 该 程序 击败 了 杰 拉 德 ， 于 是 他 联系 了 著名 的 西洋 双 陆 棋 世 界 冠 军 
选手 兼作 家 比尔 :罗伯特 (Bill Robertie) ， 并 邀请 他 来 约克 敦 海 次 的 
IBM 跟 TD-Gammon 对 局 。 罗 伯 符 说 得 了 大 部 分 的 棋局 ， 但 是 对 在 一 些 
胜算 较 高 的 对 局 中 落 败 不 免 感 到 惊讶 ， 随 后 他 宣布 这 是 他 对 决 过 的 最 
好 的 西洋 双 陆 棋 程 序 。TD-Gammon 展 现 了 一 些 他 从 未 见 过 的 棋 路 ;经 
过 一 番 仔 细 人 研究， 这些 棋 路 被 证 明 可 以 在 总 体 上 提升 人 类 玩家 的 水 
平 。 当 该 程序 与 自己 对 局 达到 150 万 次 时 ， 罗 伯 特 回来 了 了 ， 而 且 非 常 慰 


讶 于 目 己 居然 只 跟 TD-Gammon 打 了 个 平手 。 它 的 水 平 突飞猛进 ， 罗 伯 
特 觉得 它 已 经 达到 了 人 类 冠军 的 水 平 。 西 洋 双 陆 棋 专家 基 特 : 伍 尔 西 

(Kit Woolsey) 发 现 ， 当 时 TD-Gammon 对 于 应 该 打 安 全 牌 〈 低 风险 / 
RD) 还 是 走 险 着 (高 风险 /高 奖励 ) 的 判断 ， 比 他 见 过 的 任何 人 都 
要 准确 。 虽 然 150 万 局 的 训练 可 能 看 起 来 已 经 很 多 了 ， 但 它 只 代表 了 所 
有 10“2 个 可 能 的 西洋 双 陆 棋 板 位 置 的 无 限 小 部 分 ， 这 要 求 TD-Gammon 
的 几乎 每 一 步 棋 都 能 推广 到 新 的 棋 板 位 置 。 


TD-Gammon 并 没有 像 IEBM 的 “深蓝 ?那样 受到 公众 的 关注 ， 后 者 在 
1997 年 的 国际 象棋 比赛 中 击败 了 加 里 : 卡 斯 帕 罗 夫 (Gary Kasparov) ° 
国际 象棋 比 西洋 双 陆 棋 要 困难 得 多 ， 卡 斯 帕 罗 夫 当 时 是 国际 象棋 的 世 
界 冠 军 。 但 在 某 些 方面 ，TD-Gammon 是 一 个 令 人 印象 更 加 深刻 的 成 
BL 首先 ，TD-Gammon 使 用 模式 识别 技术 来 教会 自己 如 何 下 棋 ， 这 与 
人 类 学 习 的 风格 十 分 相似 ， 而 * 深 监 ? 则 通过 又 力 算法 (brute force) 7X 
得 胜利 ， 使 用 特制 硬件 ， 比 任何 人 类 棋 手 都 能 预见 到 更 多 可 能 的 棋 
路 。 其 次 ，TD-Gammon 也 很 有 创意 ， 使 用 了 人 类 从 末 见 过 的 微妙 策略 
和 位 置 决策 。 这 样 一 来 ，TD-Gammon 也 提高 了 人 类 的 竞技 术 平 。 这 一 
成 就 是 人 工 智能 历史 上 的 一 道 分 水 岭 ， 因 为 我 们 从 一 个 人 工 智 能 程序 
中 学 习 到 了 新 东西 。 该 程序 教会 了 目 己 如 何在 一 个 人 类 熟 稚 的 领域 中 
掌握 一 种 复杂 的 策略 ， 这 种 新 策略 值得 人 们 关注 和 思考 。 


大 脑 的 奖励 机 制 


TD-Gammon 的 核心 是 时 间 差 分 学 习 算法 ， 它 受到 了 动物 学 习 实 验 
的 局 发。 几乎 所 有 经 过 测试 的 物种 ， 从 蜜蜂 到 人 类 ， 痢 可 以 进行 天 联 
训练 ， 就 像 巴 甫 洛 夫 的 狗 一 样 。 在 巴 甫 洛 夫 的 实验 中 ， 诸 如 铃声 之 类 
的 感官 刺激 之 后 ， 风 会 有 食物 出 现 ， 这 会 引起 流 诞 反应 。 经 过 几 次 这 
样 的 配对 之 后 ， 仅 人 靠 铃声 本 喘 束 会 导致 流放 。 不 同 物种 在 关联 学 习 中 
对 无 条 件 刺 激 有 不 同 的 俩 好 。 密 蜂 非 常 擅长 将 花 的 气味 、 颜 色 和 形状 


与 花蜜 的 奖励 联系 起 来 ， 并 利用 这 种 学 习 到 的 关联 来 找到 当 季 盛开 的 
相似 品种 的 花 。 这 种 普遍 的 学 习 方式 一 定 包 含 了 什么 重要 信息 。20 世 
纪 60 年 代 有 一 段 时 期 ， 心 理学 家 们 深入 研究 了 引起 关联 学 习 的 条 件 ， 
并 开发 了 解释 它 的 模型 。 像 斯 金 纳 (B. F. Skinner) 这 样 的 行为 主义 学 
家 曾 训练 鸽子 识别 出 照片 中 的 人 类 ， 这 就 让 人 联想 起 对 深度 学 习 的 训 
练 ， 但 这 其 中 有 一 个 很 大 的 区 别 。 反 向 传播 学 习 需 要 对 输出 层 上 的 所 
有 单元 提供 详细 的 反馈 ， 但 关联 学 习 只 提供 单一 的 奖励 信号 ， 即 正确 
或 不 正确 。 大 脑 必须 弄 清 楚 环境 中 的 哪些 特征 能 够 帮助 做 出 成 功 的 抉 
择 。 

只 有 在 奖励 之 前 发 生 的 刺激 才 被 认为 和 奖励 有 关联 。 这 是 有 道理 
的 ， 相 比 奖励 之 后 的 刺激 ， 奖 励 之 前 的 刺激 更 有 可 能 引发 奖励 。 因 果 
关系 是 自然 界 的 一 个 重要 原则 。 相 反 的 情况 则 是 条 件 刺激 之 后 伴随 的 
惩罚 ， 例 如 撞 到 脚 这 一 后 果 ， 能 教会 动物 在 今后 避免 这 类 刺激 。 在 某 
些 情况 下 ， 条 件 刺激 和 惩罚 之 间 的 时 间 间 隔 可 能 会 相当 长 。20 世 纪 50 
年 代 ， 约 翰 . 加 西亚 (John Garcia) 表明 ， 如 果 一 只 老鼠 被 喂 了 甜水 ， 
并 且 在 几 小 时 后 感到 恶心 ， 那 么 它 在 接 下 来 的 几 天 都 会 避 开 甜水 。 这 
就 是 所 谓 的 “味觉 厌恶 学 习 ” (taste aversion learning) ， 它 也 会 发 生 在 
人 类 身上 。( 习 有时， 恶心 会 被 错误 地 关联 到 摄取 的 食物 上 ， 如 巧 克 
力 。 遗 憾 的 是 ， 巧 克 力 只 是 与 其 他 东西 同时 被 食用 ， 而 不 是 引起 恶心 
的 原因 ;而 由 此 产生 的 厌恶 感 可 以 持续 多 年 ， 即 使 当事人 已 经 理性 地 
觉察 到 巧克力 并 不 是 问题 的 根源 。 

ZER (Dopamine) 是 脑 干 中 一 组 由 扩散 投射 神经 元 所 携带 的 神 
经 调节 剂 ( 见 图 10-4) ， 长 期 以 来 一 直 被 认为 与 奖励 学 习 有 关 ， 但 人 
们 始终 不 清楚 它 传 给 皮层 的 信号 是 什么 。20 世 纪 90 年 代 ， 我 实验 室 的 
博士 后 研究 员 彼 得 : 达 扬 (Peter Dayan) 和 瑞 德 . 蒙 塔 古 (Read 
Montague) 意识 到 ， 多 巴 胺 神经 元 可 以 实现 时 间 差 分 学 习 。( 岂 这 是 我 
科研 生涯 中 最 让 人 兴奋 的 几 个 时 期 之 一 ， 这 些 模型 及 其 预测 得 以 发 
表 ， 并 随后 被 沃 尔 夫 拉 姆 : 舒 尔 次 (Wolfram Schultz) 及 其 同事 通过 猴 


子 的 单 神经 元 记录 ( 见 图 10-5) OMAX BS Om DIESE » MEE 
经 确定 ， 多 巴 胺 神经 元 活动 的 瞬时 变化 传递 了 奖励 预测 误差 信号 。 
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图 10-4 人 脑 中 的 多 巴 胺 神经 元 。 位 于 中 脑 的 几 个 核 [VTA 和 黑 质 (substantia nigra) | 将 轴 突 
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图 10-5 猴 脑 中 多 巴 胺 神经 元 的 反应 ， 证 明了 它 能 够 向 大 脑 的 其 他 部 分 发 出 奖励 预测 误差 。 每 
个 点 都 是 多 巴 胺 神经 元 的 一 次 脉冲 。 每 一 条 线 都 是 单一 的 学 习 试 验 。 每 个 时 间 段 中 脉冲 的 数 
量 显 示 在 记录 的 顶部 。 (ER) 在 学 习 开始 时 ， 奖 励 (R) 是 意外 得 到 的 ， 多 巴 胺 在 得 到 奖励 
后 激发 了 一 段 脉冲 。 (中 图 ) 经 过 多 次 试验 ， 当 光照 (条 件 刺 激 ，conditioned stimulus, CS) 
在 奖励 发 放 前 持续 内 现时 ， 多 巴 胺 细胞 对 CS 做 出 了 反应 ， 但 没有 对 奖励 做 出 回应 。 根 据 时 间 


差分 学 习 ， 奖 励 后 的 响应 被 奖励 前 的 预测 抵消 了 。 (下 图 ) 当 奖 励 在 试验 中 被 扣留 时 ， 多 巴 


胺 神经 元 的 激发 在 预期 出 现 奖励 的 位 置 出 现 了 回落 。 图 片 改 编目 : Schultz, Dayan, and 
Montague, “A Neural Substrate of Prediction and Reward,” 1594, figure 1 ° 


1992 年 ， 我 去 柏林 拜访 了 正在 研究 密 峰 大 脑 快速 学 习 的 兰 道夫 : 门 
泽 尔 (Randolph Menzel) ， 当 时 我 们 在 灵 长 类 动物 的 奖励 预测 误差 方 
面 已 经 取得 了 一 些 进 展 。 蜜 蜂 的 学 习 能 力 在 昆虫 界 是 数一数二 的 。 在 
访问 一 朱 花 几 次 并 得 到 奖励 后 ， 蜜 蜂 就 能 记 住 这 朱 花 。 蜜 蜂 脑 中 有 大 
约 100 万 个 小 神经 元 ， 很 难 记录 这 些 神经 元 的 活动 ， 因 为 它们 非常 小 。 
门 泽 尔 的 小 组 发 现 了 一 种 叫 作 “VUMmx1” 的 独特 神经 元 ， 它 对 芒 糖 有 
反应 ， 但 对 气味 没有 反应 。 然 而 ， 如 果 先 传递 气味 再 提供 芒 糖 奖励 ， 
VUMmx1 也 会 对 气味 做 出 反应 。( 守 时 间 差 分 学 习 的 多 巴 胺 模型 在 蜂 脑 
中 可 能 由 单个 神经 元 实现 。VUMmx1 释 放 了 一 种 在 化 学 上 与 多 巴 胺 密 
TAA RAY HSS Val TI Fl) Fae LR (octopamine) 。 这 种 蜜蜂 学 习 模 
式 可 以 对 蜜蜂 心理 学 中 一 些微 妙 的 方面 做 出 解释 ， 比 如 风险 规避 o ©) 
如 果 让 蜜蜂 在 “定时 定量 的 奖励 * 和 “在 一 半 的 时 间 内 获得 双 倍 奖励 "之 
间 进 行 选择 ， 蜜 峰会 始终 选择 前 者 ， 尽 管 奖励 的 平均 值 相同 。( 归 多 巴 
胺 神经 元 也 存在 于 苍蝇 体内 ， 并 且 已 被 证 明 包含 几 条 用 于 短期 和 长 期 
关联 记忆 的 并 行 强化 学 习 途径 。 乌 


用 “感知 一 行动 ”框架 近 融 绩 戏 


多 巴 胺 神经 元 构成 了 控制 大 脑 中 动机 的 核心 系统 ， 所 有 成 将 药物 
都 是 通过 增加 多 巴 胺 的 分 泌 水 平 起 作用 。 当 死亡 的 多 巴 胺 神经 元 达到 
一 定数 量 时 ， 人 体 束 会 出 现 由 金森 病 的 症状 、 包 括 运动 性 震颤 ， 运 动 
RA, BAM CERAM BOM RR, BU" RR 
^" (anhedonia) ， 最 终 导 致 活动 和 反应 能 力 的 彻底 缺失 ， 即 “紧张 性 
抑郁 障碍 ” (catatonia) 。 当 意外 奖励 发 生 时 ， 行 为 正常 的 多 巴 胺 细胞 
会 问 皮 层 和 其 他 脑 部 区 域 短暂 释放 多 巴 胶 。 当 实际 奖励 低 于 期 望 时 ， 
多 巴 胺 的 释放 量 会 减少 。 这 正 是 时 间 差 分 算法 的 特征 〈 见 图 10-5) 


当 我 们 需要 做 出 决定 时 ， 都 会 询问 多 巴 胺 神经 元 。 我 们 应 该 从 菜 
单 中 点 些 什 么 ? 当 我 们 想象 每 个 菜品 时 ， 多 巴 胺 细胞 就 会 提供 对 预期 
奖励 的 估计 。 我 应 该 和 这 个 人 结婚 吗 ? 我 们 的 多 巴 胺 细胞 会 给 我 们 一 
个 比 理 性 分 析 更 值得 信赖 的 “直觉 ”建议 。 最 难以 决定 的 则 是 带 有 许多 
不 相称 维度 的 问题 。 在 选择 配偶 时 ， 要 如 何平 衡 幽 默 感 和 道 珊 的 生活 
习惯 ， 或 者 在 正面 和 负面 的 特质 之 间 做 出 数 以 百 计 的 其 他 权衡 。 我 们 
的 奖励 系统 将 所 有 这 些 维度 降低 到 了 一 个 “通用 货币 ”的 范畴 ， 即 短暂 
的 多 巴 胺 信号 。 这 种 “通用 货币 ”的 经 济 力 量 在 我 们 发 现 它 之 前 很 长 一 
段 时 间 ， 就 已 经 被 大 自然 所 利用 了 。 

时 间 差 分 学 习 算法 中 存在 两 个 参数 : 学习 速 率 a 和 折扣 因子 y CUL 
方 框 10.1) 。 某 些 昆虫 具有 很 高 的 学 习 速 率 ， 比 如 蜜蜂 ， 在 一 次 访问 
后 就 可 以 学 会 将 花 与 奖励 联系 起 来 。 但 哺乳 动物 的 学 习 速 率 较 低 ， 往 
往 要 尝试 多 次 。 折 扣 因 子 (discount factor) 也 在 很 大 的 范围 内 变化 。 
当 y= 0 时 ， 学 习 算 法 是 贪 焚 的 ， 仅 仅 基 于 是 否 能 立刻 获得 奖励 做 出 决 
E; 但 是 当 y= 1 时 ， 所 有 未 来 奖励 都 具有 相等 的 权重 。 在 一 个 经 典 的 
实验 中 ， 被 测试 的 幼 童 可 以 选择 是 立刻 吃 掉 手 里 的 一 颗 棉 花 糖 ， 还 是 
等 待 15 分 钟 再 吃 ， 到 时 候 就 能 再 得 到 一 颗 棉 花 糖 。( 旺 年龄 是 一 个 强 有 
力 的 预测 因子 ， 年 龄 较 小 的 孩子 无 法 延迟 满足 感 。 如 果 认 为 有 必要 ， 
我 们 可 以 在 短期 内 做 出 带 来 负面 回报 的 选择 ， 以 交换 在 遥远 的 将 来 所 
期 望 获得 的 更 丰厚 的 奖励 。 

多 巴 胺 神经 元 接受 来 自 大 脑 中 被 称 为 “基底 神经 节 ” 部 分 的 输入 
( 见 图 10-4) ， 众 所 周知 ， 这 对 于 顺序 学 习 和 习惯 行为 的 形成 是 很 重 
要 的 。 基 底 神 经 节 纹 状 体 中 的 神经 元 接受 来 自 整个 大 脑 皮层 的 输入 。 
来 自 皮 叶 层 后 半 部 分 的 输入 ， 对 于 学 习 动 作 的 顺序 以 实现 某 个 目标 而 
言 十 分 重要 。 前 额 叶 皮层 对 基底 神经 节 的 输入 更 多 的 是 与 行动 的 计划 
顺序 有 关 。 从 皮层 到 基底 神经 节 再 返回 的 循环 需要 100 毫 秒 ， 每 秒 循环 
信息 10 次 。 这 就 允许 通过 一 系列 快速 决策 来 实现 目标 。 基 底 神经 节 的 
神经 元 也 会 评估 皮层 状态 ， 并 为 它们 分 配 一 个 值 。 


基 确 神经 节 执 行 的 是 术 拉 德 . 特 索 罗 在 TD-Gammon 中 训练 的 价值 
函数 的 高 级 版 本 ， 后 者 被 用 来 预测 棋盘 位 置 的 价值 。 在 第 1 章 中 摘 述 的 
由 DeepMind 公 司 开 发 的 AlphaGo 所 取得 的 怀 人 成 惑 ， 即 具备 围棋 世界 
冠军 级 别 的 能 力 ， 是 基于 与 TD-Gammon 相 同 的 体系 结构 ， 但 前 者 是 后 
者 的 加 强 版 。TD-Gammon 价 值 网 络 中 的 一 层 隐 藏 单 元 在 AlphaGo 中 变 
成 了 十 几 层 ， 并 经 历 了 数 百 万 次 对 决 ， 但 基本 的 算法 是 一 样 的 。 这 是 
对 神经 网 络 学 习 算 法 出 色 的 缩放 性 的 生动 演示 。 如 果 我 们 继续 增加 网 
络 规 模 和 训练 时 间 ， 性 能 还 会 获得 多 大 程度 的 提升 呢 ? 

棋 类 游戏 的 规则 比 现 实 世 界 要 人 简单 得 多 。 电 子 游 戏 世 界 为 迈 癌 更 
复杂 和 不 确定 的 环境 提供 了 一 块 执 脚 石 。DeepMind 在 2015 年 已 经 表 
明 ， 时 间 差 分 学 习 能 够 以 屏幕 像素 为 输入 ， 学 习 如 何在 超人 的 水 平 上 
玩 像 Pong 这 样 的 雅 达 利 (Atari) 街机 游戏 。( 居 下 一 个 执 脚 石 是 三 维 环 
境 中 的 视频 游戏 。《 星 际 争霸 》 (StarCraft) 是 有 史 以 来 最 具 竞 争 力 
的 视频 游戏 之 一 ，DeepMind 正 在 使 用 它 来 开发 可 在 该 世界 纵横 挥 阅 的 
日 主 深度 学 习 网 络 。 微 软 研 究 院 最 近 购 买 了 男 一 种 流行 的 视频 游戏 

《我 的 世界 》 (Minecraft) 的 版 权 ， 并 开放 了 它 的 源 代码 ， 以 便 其 他 
人 可 以 对 它 的 三 维 环境 进行 个 性 化 修改 ， 从 而 加 快 其 人 工 智能 的 发 展 
进度 。 


能 够 像 冠军 那样 下 西洋 双 陆 槛 和 围棋 ， 是 一 项 了 不 起 的 成 就 ， 玩 
电子 游戏 是 下 一 个 重要 的 进步 ， 那 么 解决 现实 世界 的 问题 呢 ? 感知 一 
行动 周期 ( 见 图 10-2) 可 用 于 解决 任何 基于 感官 数据 来 计划 行动 的 问 
题 。 行 为 的 结果 可 以 与 预测 的 结果 进行 比较 ， 其 差 值 随 后 被 用 于 更 新 
进行 预测 的 系统 的 状态 ， 对 先前 条 件 的 记忆 可 以 被 用 来 优化 资源 的 使 
用 ， 并 预测 潜在 的 问题 。 

加 拿 大 安大略 省 汉密尔顿 市 麦克 马 斯 特大 学 (McMaster 
University) 的 西蒙 . 赫 金 (Simon Haykin) ， 曾 经 使 用 这 个 框架 来 提高 
几 个 重要 的 工程 软件 系统 的 性 能 ， 早 包括， 认 知 无 线 电 ， 可 以 动态 分 
配 通信 渠道 ， 认 知 雷 达 ， 能 够 动态 地 移动 频带 以 减少 干扰 ;还 有 认 知 


电网 ， 可 以 动态 平衡 电网 电力 负载 。 风险 控制 也 可 以 在 同一 个 “感知 一 
行动 "框架 内 进行 管理 。( 央 通过 在 每 个 软件 系统 中 使 用 “感知 行动” 框 
架 来 改进 它们 所 管理 的 领域 ， 可 以 显著 地 提高 绩效 并 降低 成 本 。 


3:2] AT 


2016 年 ， 加 州 大 学 圣迭戈 分 校 的 物理 学 家 马 西 莫 . 维 加 索 拉 
(Massimo Vergassola) 和 我 都 在 思考 ， 是 否 可 以 利用 时 间 差 分 学 习 ， 
让 滑翔 机 在 高 空 彻 翔 几 小 时 ， 而 且 像 许多 鸟 类 那样 不 用 消耗 太 多 能 
量 。 亿 热膨胀 空气 能 够 将 鸟 类 带 到 很 高 的 高 度 ， 但 是 在 热 空 气 中 ， 空 
气 是 清流 的 ， 同 时 存在 向 下 和 向 上 的 气流 。 面 对 如 此 多 的 冲击 ， 鸟 类 
是 如 何 保持 它们 向 上 轨迹 的 ， 我 们 对 此 还 没有 一 个 清晰 的 认识 。 我 们 
的 第 一 步 是 对 滑 流 对 流 过 程 进行 一 个 逼真 的 物理 模拟 ， 并 创建 一 个 滑 

翔 机 空气 动力 学 模型 。 下 一 步 就 是 模拟 滑翔 机 在 满 流 中 的 轨迹 。 

一 开始 ， 滑 翔 机 还 无 法 利用 上 升 的 空气 柱 ， 表 现 为 向 下 滑行 (UL 
图 10-6) 。 在 将 “向 上 ”标记 为 奖励 后 ， 滑 翔 机 开始 学 习 一 种 策略 ， 经 
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到 了 这 些 策 略 。 然 后 ， 我 们 装备 了 一 架 辟 展 有 6 英尺 宽 的 滑翔 机 ， 教 它 
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图 10-6 滑翔 机 学 习 使 用 热气 流 勒 翔 的 模拟 。 (下 图 ) 在 我 们 的 瑞 利 - 贝 纳 尔 对 流 (Rayleigh- 
Bénard convection) 三 维 数值 模拟 中 垂直 速度 场 (A) 和 温度 场 (B) 的 截图 。 垂 直 速 度 场 
中 ， 红 色 和 蓝 色 分 别 表示 上 升 气 流 和 下 降 气 流 的 区 域 。 温 度 场 中 ， 红 色 和 蓝 色 分 别 表示 高 温 
和 低温 区 域 。 (上 图 ) 未 经 训练 的 滑翔 机 (A) 和 经 过 训练 的 滑翔 机 (B) EA- NAAR 
流 中 飞行 的 典型 轨迹 。 颜 色 表 示 滑 翔 机 经 历 的 垂直 风速 。 绿 色 和 红色 圆 点 分 别 表示 轨迹 的 起 
点 和 终点 。 未 经 训练 的 滑翔 机 随机 做 出 决定 并 下 降 飞 行 高 度 ， 而 训练 过 的 滑翔 机 在 强 上 升 气 
流 区 域 以 特征 的 螺旋 轨迹 飞行 ， 如 乌 类 和 滑翔 机 在 热气 流 中 飞行 时 所 观察 到 的 那样 。 图 片 来 
iB: G. Reddy, A.Celani, T. J. Sejnowski, and M. Vergassola, “Learning to Soar in Turbulent 
Environments,” top: figure 2; bottom: figure 11 ° 


学 习 如 何 歌 唱 


能 够 展现 强化 学 习 能 力 的 其 他 例子 ， 还 包括 乌 类 如 何 学 习 唱歌 ， 
以 及 孩子 如 何 学 习 说 话 。 在 这 两 种 情况 下 ， 听 狗 学 习 的 初始 阶段 结束 
之 后 ， 束 进入 了 渐进 式 运动 性 学 习 的 后 期 阶段 。 斑 胸 草 管 在 刚 出 生 不 
久 束 昕 到 了 它们 父亲 的 歌声 ， 但 要 几 个 月 后 才能 发 出 目 己 的 声音 。 即 


使 当 它 们 在 运动 学 习 阶 段 与 父亲 分 离 时 ， 会 经 历 一 段 听 起 来 很 刺耳 的 
初 鸣 期 ， 但 这 种 声音 会 不 断 地 改善 ， 最 终 按 照 它 们 父亲 特有 的 音调 发 
出 乌 鸣 。 斑 胸 草 徐 可 以 通过 同 物种 的 歌声 判断 它 来 自 森 林 的 何 处 ， 就 
像 我 们 能 够 从 一 个 人 的 口音 得 知 那个 人 来 自 哪里 一 样 。 推 动 鸟 鸣 研 究 
的 假设 是 ， 在 听觉 学 习 阶 段 ， 鸟 类 移 学 习 模板 ， 然 后 用 模板 来 改进 运 
动 系统 在 运动 性 学 习 阶 段 产 生 的 声音 。 我 们 知道 强化 学 习 发 生 在 基底 
神经 节 ， 而 负责 人 类 和 鸣 禽 运动 学 习 阶 段 的 通路 也 位 于 那里 。 

1995 年 ， 我 实验 室 的 博士 后 铜 谷 贤 治 (Kenji Doya) FE T515 
运动 细 化 ”的 强化 学 习 模 型 ( 见 图 10-7) 。 该 模型 通过 调整 运动 通路 中 
的 突 触 ， 使 之 与 鸟 类 的 发 声 器 官 ( 即 鸣 管 ，syrinx) 模型 相 匹 配 ， 从 而 
提高 了 它 的 性 能 ， 然 后 测试 新 歌 是 否 比 前 一 首 歌 更 符合 这 个 模板 。 如 
果 是 的 话 ， 这 些 变化 就 被 保留 ， 但 如 果 新 的 歌曲 匹配 效果 较 差 ， 那 么 
突 触 就 会 衰减 回 原来 的 强度 。( 电 我 们 预测 ， 在 产生 音节 序列 的 运动 回 
路 的 顶端 ， 应 该 只 活跃 在 歌曲 单个 音节 上 的 神经 元 ， 以 便 更 容易 地 对 
每 个 音节 分 别 进行 调整 。 后 来 ， 太 省 理工 学 院 的 米 吹 尔 :- 菲 (Michale 
Fee) 实验 室 和 其 他 乌 类 实验 室 的 研究 结果 证 实 了 这 一 点 ， 同 时 也 证 实 
了 该 模型 中 的 其 他 关键 预测 。 
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图 10-7 SERA] AN RS, o FER i 侧 的 频谱 图 中 ， 父亲 的 歌唱 (Sem, ER) 教 给 了 儿子 (学 


生 ， 上 数 第 二 张 图 ) ， 于 是 这 种 鸟 鸣 的 声音 特征 代 代 相传 。 注 意 频 谱 图 (时 域 上 的 频谱 功率 
BRAY) 中 基调 (红色 轮廓 框 ) 的 相似 性 。 基 调 随 着 代 际 的 增长 而 变 短 。 左 图 来 源 : http://bird- 
photoo.blogspot.com/2012/11/zebrafinch-bird-pictures.html; 右 图 来 源 : Olga Feher Haibin Wang, 
Sigal Saar, Partha P Mitra, and Ofer Tchernichovski,“De novo Establishment of Wild-Type Song 
Culture in the Zebra Finch,” figuer 4 ° 


在 加 州 大 学 旧金山 分 校 研究 鸟 鸣 学 习 的 艾 莉 森 . 杜 普 (Allison 
Doupe) ， 以 及 在 西雅图 华盛顿 大 学 研究 婴儿 语言 系统 发 育 的 帕 特 里 
BEI (Patricia Kuhl) ， 都 证 明了 鸣 禽 学 习 和 幼儿 语言 学 习 方面 有 很 
多 相似 之 处 。( 同 鸟 儿 的 音节 和 婴儿 的 音素 首先 是 作为 声音 被 习 得 的 
( 即 听觉 学 习 ) ， 而 运动 学 习 随后 才 以 乌 类 的 初 鸣 和 婴儿 的 嘱 呀 学 语 
开始 。 在 大 脑 中 有 许多 因 领域 而 异 的 学 习 和 记忆 系统 ， 这 些 系统 必须 
协同 工作 以 获取 新 技能 。 乌 类 学 习 乌 鸣 的 强化 学 习 算 法 以 及 在 猴子 、 
人 类 、 蜜 蜂 等 奖励 系统 中 的 时 间 差 分 学 习 算 法 ， 只 是 其 中 的 两 个 例 
子 o 


人 工 章 能 的 可 塑性 


尽管 人 们 在 视觉 和 听觉 等 认 知 功能 的 目 动 化 方面 取得 了 进展 ， 但 
人 工 智能 还 需要 在 人 类 智能 的 许多 其 他 方面 取得 进步 。 皮 层 中 的 表征 
学 习 与 基底 神 经 节 中 的 强化 学 习 相 辅 相 成 。 人 工 智能 学 习 能 把 精通 转 
棋 的 能 力 运用 到 解决 其 他 复杂 问题 上 吗 ? 大 部 分 人 类 学 习 都 是 基于 观 
察 和 模仿 ， 对 于 学 习 识 别 新 对 象 ， 我 们 需要 的 样本 比 深度 学 习 要 少 得 
多 。 未 标记 的 感官 数据 非常 丰富 ， 强 大 的 无 监督 学 习 算 法 可 以 在 进行 
任何 监督 之 前 使 用 这 些 数 据 学 到 一 些 东 西 。 在 第 7 章 中 ， 一 个 无 监督 版 
本 的 玻 尔 效 曼 学 习 算 法 被 用 来 初始 化 深度 学 习 网 络 。 在 第 6 章 中 ， 独 立 
分 量 分 析 一 一 一 种 无 监督 学 习 算 法 ， 能 够 从 目 然 图 像 中 提取 稀 跑 编码 
(sparse population codes) 。 在 第 9 章 ， 生 成 对 抗 网 络 全。 
的 学 习 系 统 ， 可 以 创建 逼真 的 图 片 。 无 监督 学 习 是 机 器 学 习 的 下 一 个 
前 沿 领域 。 我 们 对 大 脑 式 计算 的 理解 才刚 刚 拉 开 序幕 。 
大 脑 的 许多 学 习 系 统 和 形式 多 样 的 可 塑性 可 以 协同 工作 。 仪 在 大 
脑 皮 层 内 天 有 几 十 种 可 塑性 ， 例 如 神经 元 兴 理 性 和 增益 的 可 塑性 。 突 
触 可 塑性 一 个 特别 重要 的 形式 是 稳 态 (homeostatic) ， 它 确保 神经 元 
在 最 佳 动态 范围 内 活动 。 当 突 触 强 度 降 低 到 零 或 达到 极限 时 ， 会 发 生 
什么 昵 ? 这 可 能 导致 神经 元 永远 不 会 获得 足够 的 输入 米 达 到 闵 值 ， 或 
者 接收 太 多 的 输入 并 始终 保持 高 水 平 的 活动 。 吉 娜 : 特 里 吉 亚 诺 (Gina 
Turrigiano) 在 大 脑 中 发 现 了 一 种 新 的 突 触 可 塑性 形式 ， 它 将 神经 元 上 
的 所 有 突 触 进行 了 归 一 化 ， 以 维持 神经 元 活动 的 平衡 。( 岂 如 果 平 均 活 
动 速率 过 高 ， 所 有 兴奋 性 突 触 强度 都 会 减 小 ， 如 果 速 率 太 低 ， 所 有 突 
触 强 度 都 会 增加 。 对 于 抑制 性 输入 ， 和 情况 则 相反 ， 如 采 活 动 速率 太 
高 ， 突 触 强度 会 增加 ， 速 率 太 低 则 减 小 。 类 似 的 归 一 化 形式 已 经 被 证 
明 能 够 有 效 地 模拟 大 脑 中 神经 映射 的 发 展 。 (里 由 随机 梯度 下 降 
(stochastic gradient descent) 驱动 的 人 工 神 经 网 络 能 够 从 稳 态 缩放 


(homeostatic scaling) 中 受益 。 


大 脑 在 其 神经 元 细胞 膜 上 具有 数 十 个 电压 敏感 的 配 体 门 探 离子 通 
道 ， 用 以 调节 兴奋 性 和 信号 传导 。 和 神经 元 的 树 突 、 体 细胞 和 轴 突 内 部 
一 定 有 某 种 基于 局 部 活动 模式 的 机 制 ， 来 动态 调 市 这 些 通道 的 位 置 和 
密度 。 有 人 曾 提出 过 几 种 算法 来 实现 这 些 机 制 。( 电 目前 ， 我 们 对 这 些 
稳 仿 形式 的 理解 并 没有 达到 突 触 稳 人 态 可 塑性 那样 的 深度 。 


更 多 需要 人 馈 解 决 的 问题 


在 蒙特 利 尔 举行 的 2015 年 NIPS 大 会 的 “Brains , Minds and 
Machines” (大 脑 、 思 维和 机 器 ) 座谈 会 ， 以 及 2016 年 巴塞 罗 那 NIPS 大 
会 的 “Bits and Brains” (比特 与 大 脑 ) 人 研讨 会 期 间 ， 戴 米 斯 - 哈 了 萨 比 斯 和 
我 在 天 于 人 工 智 能 未 来 ， 以 及 下 一 个 优先 研究 重点 的 问题 上 进行 了 激 
烈 的 辩论 。 人 工 智 能 中 还 有 许多 开放 的 问题 需要 解决 。 最 重要 的 束 是 
因果 关系 问题 ， 它 提供 了 最 高 层次 的 人 类 推理 ， 以 及 行动 的 意向 性 问 
题 ， 这 两 者 都 预示 着 一 种 精神 理论 。 我 之 前 提 到 ， 我 们 所 创造 的 深度 
学 习 系 统 都 不 能 依靠 自己 独立 生存 。 这 些 系统 的 自主 性 只 有 在 它们 包 
含 了 迄今 为 止 一 直 被 忽视 的 ， 类 似 于 大 脑 其 他 部 分 的 功能 时 才 有 可 能 
实现 ， 例 如 管理 摄食 、 索 殖 、 调 节 激 素 、 稳 定 内 脏 的 下 丘脑 ， 以 及 帮 
助 我 们 根据 运动 预测 误差 来 调整 运动 的 小 脑 。 这 些 都 是 在 所 有 痊 椎 动 
物 中 发 现 的 古老 结构 ， 对 生存 起 着 至 关 重 要 的 作用 。 

哈 瓦 : 西 格 尔 曼 (Hava Siegelmann) 是 马萨诸塞 大 学 阿 默 斯 特 分 校 
的 计算 机 科学 家 ， 她 表明 模拟 计算 (analog computing) 是 超 图 灵 

(super-Turing) ， 也 就 是 说 ， 拥 有 人 能够 超越 数字 计算 机 的 计算 能 
加 可 以 根据 环境 进行 调整 和 学 习 的 神经 网 络 也 有 超 图 灵 计 算 能 力 ， 而 
普通 网 络 从 训练 集中 学 习 ， 然 后 其 结构 就 被 固定 下 来 ， 在 操作 时 不 再 
从 它们 的 实际 经 验 中 学 习 ， 这 一 点 和 图 灵机 是 一 样 的 。 但 是 ， 我 们 的 
大 脑 必 须 持续 适 应 不 断 变 化 的 条 件 ， 这 就 使 我 们 具备 了 超 图 灵 能 力 。 
我 们 如 何 做 到 这 一 点 并 同时 拥有 以 前 的 知识 和 技能 ， 是 一 个 尚未 解决 


的 问题 。 哈 瓦 是 DARPA 终 喘 学 习 项 目的 项 目 经 理 。 她 的 “ 终 喘 学 习 计 
划 ” 正 在 货 助 一 些 高 级 研究 ， 这 些 研究 旨 在 为 目 治 系统 中 的 终 吴 学 习 创 
建 靳 的 集成 架构 。 
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虽然 我 们 这 位 传奇 发 明 家 命运 未 上下， 但 是 一 旦 国王 意识 到 自己 被 其 页 了， 他 很 可 能 
会 因为 自己 的 无 礼 而 被 发 落 。 
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11 
火爆 的 NIPS 


要 追寻 科学 思想 的 源头 并 非 易 事 ， 因 为 科学 是 分 布 在 不 同时 空中 
很 多 个 体 活 动 的 集合 。 神 经 信息 处 理 系统 大 会 (NIPS 大 会 ， 见 图 11- 
1) 是 本 书写 作 的 线索 。 到 目前 为 止 ， 很 明显 ， 这 一 会 议 不 仅 对 我 ， 也 
对 整个 科学 领域 产生 了 重大 影响 。( 汪 当时 还 没 成 为 我 妻子 的 比 阿 特 丽 
斯 哥伦布， 在 1990 年 的 NIPS 大 会 上 做 了 关于 SEXNET 的 演讲 。 在 结婚 
后 不 久 的 一 次 NIPS 大 会 上 ， 我 们 还 差点 分 手 。NIPS 大 会 让 人 人 着迷， 日 
天 都 是 一 些 会 议 的 常规 环节 ， 增 报 展示 环 蔬 设 在 晚上 ， 直 到 后 半夜 各 
个 会 场 仍然 人 声 轴 沸 。 有 次 我 在 竣 晨 3 点 参加 完 一 个 环节 的 活动 ， 回 到 
房间 没 找 到 比 阿 特 丽 斯 ， 当 时 我 意识 到 自己 麻烦 大 了 。 幸 运 的 是 ，28 
年 后 ， 我 们 还 在 一 起 。 


A 


VS, 


图 11-1 NIPS 大 会 的 标志 。30 年 前 成 立 的 NIPS 大 会 是 机 器 学 习 和 深度 学 习 领 域 的 顶级 会 议 。 图 
片 来 源 : NIPS 基 金 会 。 


为 什么 NIPS 如 此 受 欢迎 


深度 学 习 拥 有 很 长 的 历史 ， 可 以 追溯 到 NIPS 年 度 大 会 和 研讨 会 ， 
以 及 这 些 会 议 的 前 身 。20 世 纪 80 年 代 ， 来 自 世 界 各 地 的 工程 师 、 物 理 
学 家 、 数 学 家 、 心 理学 家 和 神经 科学 家 在 NIPS 大 会 上 齐 聚 一 堂 ， 探 讨 
共同 构建 人 工 智能 的 新 方法 。 物 理学 家 分 析 神 经 网 络 模型 ， 心 理学 家 
模拟 人 类 认 知 ， 神 经 科学 家 模拟 神经 系统 并 分 析 神 经 记录 ， 统 计 学 家 
探索 高 维 空间 中 的 大 数据 集 ， 工 程 师 则 负责 构建 具备 类 人 的 视觉 和 听 
觉 的 设备 。 人 工 智 能 就 以 这 样 的 方式 飞速 发 展 起 来 。 

1987 年 在 美国 丹佛 技术 中 心 举 办 的 第 一 届 NIPS 大 会 ， 聚 集 了 400 
位 与 会 者 。 学 术 会 议 通常 侧重 于 狭窄 的 研究 领域 ， 因 为 每 个 人 都 会 说 
同样 的 术语 ， 彼 此 间 能 顺畅 地 交流 。 但 是 早期 NIPS 大 会 的 科学 多 样 性 
确实 令 人 惊叹 。 生 物 学 家 在 面 对 其 他 生物 学 家 做 演讲 时 ， 会 用 生物 领 
域 的 术语 。( 人 洁 数 学 家 和 物理 学 家 交流 的 情况 更 糟糕 ， 他 们 只 会 用 方程 
式 说 话 。 工 程 师 们 会 好 一 些 ， 因 为 他 们 构建 的 东西 不 言 自明 。 由 于 这 
些 文化 障碍 ， 跨 学 科研 究 虽 然 被 普遍 寄予 厚望 ， 但 事实 上 却 很 难 实 
现 。 在 早期 的 NIPS 大 会 上 ， 好 像 每 个 人 都 在 自 说 自 话 。 

1987 年 NIPS 大 会 的 主要 会 议 结束 之 后 ， 与 会 者 在 附近 的 滑雪 胜地 
Keystone 又 聚集 到 一 起 开 了 个 研讨 会 ， 并 目 行 组 织 了 小 组 会 议 。 在 一 
个 不 那么 正式 的 环境 里 ， 学 科 之 间 的 真正 沟通 开始 了 。 我 清楚 地 记 
得 ， 我 们 在 Keystone 的 热 水 浴缸 里 泡 澡 的 时 候 ， 一 位 神经 学 博士 建议 
当场 开展 一 个 关于 海 免 的 研讨 会 。( 屿 当时 我 旁边 那 位 来 自 美国 国防 部 
的 绅士 ， 很 可 能 在 琢磨 海 免 与 国家 安全 有 什么 关系 。 然 而 今天 ，NIPS 
研讨 会 都 是 带 有 墙报 展示 环节 的 小 型 会 议 ， 其 中 一 些 研讨 会 吸引 了 数 
千 名 与 会 者 。 

是 什么 让 NIPS 长 期 受到 追捧 呢 ? 首先 ， 是 让 人 激动 的 氛围 ， 因 为 
我 们 正 处 于 用 受 生物 学 启发 的 学 习 算 法 来 解决 复杂 计算 问题 的 前 沿 。 
其 次 ， 就 是 因为 爱德华 .波斯 纳 ( 见 图 11-2) ， 他 是 加 州 理工 学 院 的 信 
息 理论 家 ， 也 是 喷气 推进 实验 室 (Jet Propulsion Lab) 的 首席 技术 专 


家 。 他 对 这 个 领域 有 着 长 远 的 眼光 ， 并 建立 了 NIPS 基 金 会 对 大 会 进行 
管理 。 

一 个 组 织 的 文化 往往 能 反映 其 创始 人 的 特质 。 爱 德 华 赋予 了 NIPS 
容 宕 、 机 敏和 幽默 感 的 独特 组 合 。 他 是 一 位 擅长 局 发 别人 的 老师 ， 同 
时 也 是 卓有成效 的 领导 者 。 他 因为 文 持 暑 期 大 学 生 研究 奖学金 项 目 
(Summer Undergraduate Research Fellowships， 简 称 SURF) 而 在 加 州 
理工 学 院 备 受 爱 戴 ， 该 项 目 被 称 为 “< 加 州 理工 呈 冠 上 的 宝石 ”之 一 。 爱 
TETAS SERRE (Phil Sotel) 作为 公益 法 律 顾问 。 数 十 年 间 ， 
会 议 规模 和 复杂 程度 都 在 不 断 增长 。 在 索 特 尔 的 努力 下 ， 许 多 随 之 而 
来 的 问题 都 妥善 地 得 到 了 解决 ， 因 此 大 会 得 以 每 年 顺利 举行 。 


| “a mn 


图 11-2 加 州 理工 学 院 的 爱德华 -波斯 纳 ，NIPS 大 会 的 发 起 人 。 该 大 会 在 举办 了 30 年 后 仍然 颇 受 
欢迎 ， 这 跟 爱 德 华 的 远见 卓识 密 不 可 分 。 图 片 来 源 ， 加 州 理工 学 院 。 

爱德华 在 我 妻子 还 很 年 轻 的 时 候 就 认识 她 了 ， 并 且 通 过 NIPS 单 独 
结识 了 我 。 所 以 当 我 在 一 次 NIPS 大 会 中 突然 告诉 他 ， 比 阿 特 丽 斯 和 我 
已 经 订婚 (engaged) 了 的 时 候 ， 他 回答 说 : “致力 于 (engaged) ff 
A? 六 当 爱德华 于 1993 年 在 一 次 自行 车 事故 中 不 幸 身亡 ， 随 后 我 接 营 
他 成 为 NIPS 基 金 会 主席 ， 保 证 大 会 的 继续 发 展 和 繁荣 。 我 们 在 每 年 的 
NIPS 大 会 上 都 会 举办 爱德华 :波斯 纳 讲座 (Ed Posner Lecture) ， 以 表 


示 对 他 的 缅怀 和 和 敬意 。NIPS 大 会 的 特 邀 演讲 训 宾 通常 都 不 是 NIPS 主 流 
领域 内 的 从 业者 ， 但 波斯 纳 讲座 主要 的 演讲 者 都 是 来 自我 们 这 个 群 
体 ， 并 对 该 领域 做 出 重大 页 献 的 成 员 。 

NIPS 大 会 的 主席 团 由 一 群 太 出 的 科学 家 和 工程 师 组 成 。 在 此 仅 列 
举 几 位 。 斯 科 特 : 柯 克 帕 特 里 克 是 一 位 物理 学 家 〈 在 第 7 章 中 已 经 介绍 
过 ) ， 他 发 明了 一 种 让 计算 机 先 “ 加 热 ” 再 慢 慢 “ 冷 却 "”， 来 解决 计算 难 
题 的 “模拟 退火 算法 *”。 塞 巴 斯 带 安 : 特 隆 是 一 位 计算 机 科学 家 (在 第 1 
章 中 介绍 过 ) ， 他 赢得 了 2005 年 DARPA 自 动 芍 驶 挑战 大 赛 ， 为 今天 的 
自动 区 驶 汽车 打开 了 大 门 。 达 关 妮 :科勒 (Daphne Koller) 是 一 位 计算 
机 科学 家 ， 也 是 Coursera 〈 将 在 第 12 章 介绍 ) 的 联合 创始 人 ， 开 创 了 
菜 课 领域 的 先河 。 

大 数据 促成 了 深度 学 习 的 腾飞 。 不 久 前 ， 一 太 字 节 (terabyte, BẸ 
万 亿 字 节 ) 的 数据 还 需要 占用 整个 机 架 ; 而 现在 ， 在 单个 记忆 棒 上 就 
可 以 存储 一 太 字 市 的 数据 。 互 联网 公司 的 数据 中 心 存储 的 信息 以 招 字 
Ti (petabyte) 计量 ， 每 拍 字 节 包 含 1024 太 字 节 (1 拍 字 节 =10”5 字 
T) 。 自 20 世 纪 80 年 代 以 来 ， 世 界 上 的 数据 量 每 三 年 翻 一 番 。 每 天 都 
BATS TORE RM EL, HRA BAR SRS 

(4zettabyte， 即 100 万 拍 字 节 ， 或 1024! 字 下 ) 。 大 数据 爆炸 的 影响 不 仅 
体现 在 科学 和 工程 领域 ， 也 延伸 到 了 社会 生活 的 方方面面 。 如 有 末 没 有 
互联 网 上 的 数 百 万 张 图 像 和 其 他 标签 数据 ， 就 无 法 训练 真正 的 大 型 深 
度 学 习 网 络 。 


世界 各 地 的 大 学 都 在 为 数据 科学 建立 新 的 中 心 、 人 研究 机 构 和 科 
R o LAAPE (Alex Szalay) H 1998 年 以 来 ， 号 在 斯 隆 数 字 巡 天 
项 日 ( Sloan Digital Sky Survey ， 下 文 简 称 SDSS; 
http://www.sdss.org/) 中 收集 天 文 数据 。2009 年 ， 和 凭借 自己 的 这 份 经 
历 ， 他 在 约翰 : 霍 普 金 斯 大 学 建立 了 数据 密集 工程 和 科学 人 研究 所 
(Institute for Data Intensive Engineering and Science, ， 简 称 IDIES) 


SDSS 使 得 天 文学 家 收集 的 数据 总 量 成 千 倍 地 增长 ， 是 当今 世界 上 被 使 


用 次 数 最 多 的 天 文学 设施 。 然 而 ， 正 在 建设 中 的 大 型 综合 性 天 空 巡 天 
望远镜 (Large Synoptic Sky Survey Telescope, https://www.lsst.org/) 收 
NTA AURA. RCT IMA RIN A T A 
模 的 数据 集 达 1000 倍 之 多 。2013 年 ， 当 杨 立 昆 在 纽约 大 学 创立 数据 科 
学 中 心 时 ， 每 个 科 系 都 有 老师 市 着 手中 的 数据 去 拜访 他 。2018 年 ， 加 
州 大 学 圣迭戈 分 校 建立 了 新 的 Halcloglu 数 据 科 学 研究 所 。 数 据 科学 硕 
士 学 位 (Master's in Data Science degrees， 简 称 MDSs) 正 变 得 像 工 商 
管理 硕士 (MBA) 一 样 受 人 追捧 。 


VEDA Be BOE, VERE MAC 


2012 年 在 太 浩 湖 举行 的 NIPS 大 会 上 ， 深 度 学 习 领 域 的 研究 已 经 日 
ERKA 〈 见 图 11-3) 。 在 这 次 大 会 上 ， 早 期 的 神经 网 络 先驱 杰 弗 里 .学 
顿 和 他 的 学 生 们 发 表 了 一 篇 论文 ， 文 中指 出， 多 层 神 经 网 络 在 识别 图 
像 中 的 对 象 方面 性 能 非常 出 色 。( 时 这 些 网 络 不 仅 比 现 有 计算 机 的 视觉 
技术 更 好 ， 它 们 甚至 已 经 处 于 一 种 完全 不 同 的 更 高 层次 中 ， 更 加 接近 
人 类 的 表现 水 准 。《 纽 约 时 报 》 刊 登 了 一 篇 关于 深度 学 习 的 文章 ， 同 
时 Facebook 宣 布 与 另 一 位 深度 学 习 移 驱 杨 立 昆 合作 成 立 一 个 新 的 人 工 
智能 实验 室 ， 由 后 者 担任 创始 实验 室 主 任 。 


Facebook 首 局 执行 官 马 克 : 扎 殉 伯 格 (Mark Zuckerberg) 参与 了 
2012 年 的 NIPS 深 度 学 习 研 讨 会 。 当 时 安保 成 了 令 人 头痛 的 问题 ， 但 也 
吸引 了 更 多 的 与 会 者 ， 我 们 不 得 不 分 流 了 一 部 分 人 到 另外 一 个 播放 会 
场 同步 视频 的 房间 。 在 之 后 的 招待 会 上 ， 我 被 介绍 给 了 扎 克 伯 格 ， 他 
问 了 些 关于 大 脑 的 问题 。 他 对 心智 理论 特别 感 兴趣 。 在 心理 学 中 ， 有 
一 个 关于 心智 如 何 工作 的 内 隐 理 论 ， 我 们 以 它 为 指导 来 理解 他 人 。 我 
们 给 朋友 发 短信 时 ， 并 没有 意识 到 在 打字 时 大 脑 做 出 的 许多 决定 。 扎 
克 伯 格 问 了 很 多 问题 。“ 我 的 大 脑 如 何 构建 我 自己 的 心理 模型 ? ”我 的 
大 脑 如 何 根据 经 验 来 创建 其 他 人 的 心理 模型 ? ”我 的 大 脑 如 何 预测 其 


他 人 的 未 来 行为 ? ”其 他 物种 有 没有 心智 理论 ? "Sao ERRAT UT TC 
所 合作 组 织 了 一 个 关于 心智 理论 的 人 研讨 会 ， 扎 死人 格 想 要 研讨 会 上 所 
有 的 参考 资料 。 


LAKE TAHOE NEVADA 


DECEMBER 5 - 10, 2013 
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图 11-3 在 太 浩 湖 赌场 举办 的 2012 NIPS 大 会 是 深度 学 习 领域 的 一 个 转折 点 ， 让 “神经 ”重新 回归 
了 “神经 信息 处 理 系统 *。 图 片 来 源 ，NIPS 基 金 会 。 

在 机 器 学 习 中 ， 谁 拥有 最 多 的 数据 ， 谁 就 是 赢家 ， 显 然 Facebook 
所 拥有 的 关于 人 们 点 赞 、 好 友和 照片 的 数据 让 其 他 人 只 能 望 其 项 背 。 
利用 所 有 这 些 数据 ，Facebook 可 以 创建 我 们 的 心智 理论 ， 并 用 它 来 预 
测 我 们 的 偏好 和 政治 倾 句 ， 甚 至 有 一 天 可 能 会 比 我 们 更 了 解 我 们 自 
己 。Facebook 有 朝 一 日 会 成 为 奥 威 尔 小 说 中 老大 哥 的 化 身 吗 ? SKS 
觉得 这 是 一 个 令 人 不 寒 而 栗 的 前 景 ， 还 是 发 现 有 一 个 能 满足 你 需求 的 
数字 管家 很 方便 ? 我 们 可 能 会 问 Facebook 是 否 应 该 拥有 这 种 权力 ， 但 
在 这 个 问题 上 我 们 也 许 并 没有 多 少 发 言 权 。 

尽管 我 们 在 太 浩 湖 的 赌场 举办 了 2012 年 和 2013 年 的 NIPS 大 会 ， 但 
与 会 者 都 避 开 了 赌 桌 。 他 们 知道 赌场 庄家 获胜 的 可 能 性 更 大 ， 更 何 
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为 多 巴 胺 奖励 预测 误差 系统 是 我 们 大 脑 的 一 部 分 (在 第 10 章 中 讨论 
B) 。 赌 场 已 经 优化 了 有 利于 博彩 的 条 件 : 获得 巨大 回报 的 允诺 ; 随 
机 间隔 的 偶然 小 胜 (奖励 ) 一 一 研究 已 经 证 明 ， 这 是 保持 实验 室 老 鼠 
不 停 按 下 食物 按钮 的 最 佳 方式 ;在 老虎 机 上 获胜 时 触发 的 声音 和 灯 
光 ; 全 天 昏暗 的 灯光 ， 将 由 光线 驱动 的 昼夜 律 与 正常 的 日 夜 更 砍 分 
开 ， 从 大 你 下 注 。 不 过 从 长 远 来 看 ， 庄 家 显然 说 得 更 多 。 

在 蒙特 利 尔 召开 的 2015 年 NIPS 大 会 上 ，3800 名 国际 与 会 者 拥 入 了 
蒙特 利 尔 会 议 中 心 。 会 议 开 场 时 的 深度 学 习 课程 环节 非常 受 欢迎 ， 导 
致 人 满 为 患 。 出 于 防火 安全 方面 的 考虑 ， 我 们 不 得 不 遗 散 了 一 些 人 。 
高 科技 行业 中 几乎 所 有 拥有 大 数据 的 公司 都 采用 了 深度 学 习 技 术 ， 这 
一 趋势 正在 以 更 快 的 速度 扩散 。 在 巴塞 罗 那 举行 的 2016 年 NIPS 大 会 开 
始 前 两 周 ， 我 们 将 与 会 人 数 限制 在 5400 名 。 一 个 从 纽约 飞 来 的 人 很 失 
望 地 发 现 他 无 法 在 现场 注册 。2017 年 在 长 滩 举 行 的 NIPS 大 会 在 注册 开 
放 12 天 后 就 限制 注册 了 ， 与 会 者 达到 了 8000 人 。 如 果 自 2014 年 以 来 ， 
每 年 出 席 会 议 的 人 数 按 50% 的 增 速 持续 下 去 ， 那 么 最 终 地 球 上 的 每 个 
人 都 会 想 参加 NIPS 大 会 。 当 然 ， 泡 沫 最 终 会 破裂 ， 但 是 与 大 多 数 泡 沫 
一 样 ， 没 有 人 知道 这 事 儿 什么 时 候 会 发 生 。 

来 自 科 学 和 工程 部 门 的 许多 研究 人 员 继续 聚 集 在 NIPS 大 会 上 ，30 
年 来 年 年 如 此 。 不 过 ， 在 巴塞 罗 那 举行 的 2016 年 NIPS 大 会 上 ，5400 名 
与 会 者 中 有 40% 的 人 是 第 一 次 参加 会 议 。 在 2016 年 之 前 ，NIPS 基 金 董 
事 会 都 明智 地 决定 让 会 议 保持 在 单一 会 场 举行 ， 这 对 于 大 型 会 议 来 说 
很 少见 。 其 背后 的 初 袁 ， 是 让 每 个 人 都 能 坐 在 同一 个 房间 里 ， 防 止 场 
地 分 散人 化。 但 在 2016 年 ， 单 一 会 场 变 成 了 双 会 场 ， 因 为 很 难 再 找到 足 
够 大 的 房间 装 下 所 有 有人。 尽管 如 此 ， 这 也 远 远 少 于 大 多 数 其 他 大 型 会 
议 中 常见 的 10 个 会 场 。NIPS 的 文章 接受 率 一 直 保 持 在 20% 左 右 ， 低 于 
大 多 数 期 刊 的 接受 率 。NIPS 在 2016 年 举办 了 “机 器 学 习 中 的 女 
TE" (Women in Machine Learning， 人 简称 WiML) EX, GIEF 
带 来 近 600 名 女性 与 会 者 〈 占 与 会 者 总 人 数 的 10%) ， 有 1000 名 女性 参 


加 了 2017 年 在 长 滩 举 行 的 会 议 。 多 样 性 继续 成 为 NIPS 大 会 的 标志 。 没 
有 任何 一 个 领域 能 够 独立 汇集 创造 了 深度 学 习 的 多 样 化 人 才 。 

也 许 让 人 感到 意外 的 是 ， 虽 然 具 备 了 影响 如 此 多 行业 的 潜力 ， 保 
护 深 度 学 习 知识 产权 的 专利 却 很 少 。 在 20 世 纪 80 年 代 ， 我 们 希望 能 让 
学 习 算 法 成 为 一 个 新 的 科学 领域 的 基础 ， 同 时 认为 获得 专利 对 此 起 不 
到 什么 积极 的 作用 。 训 无 疑问 ， 现 在 很 多 公司 已 经 为 深度 学 习 的 特殊 
应 用 提交 了 专利 ， 因 为 公司 不 会 在 没有 保护 的 情况 下 对 新 技术 进行 大 
规模 投资 。 


为 未 来 做 准备 


神经 网 络 学 习 的 重大 突破 每 30 年 就 会 发 生 一 次 ， 从 20 世 纪 50 年 代 
引入 感知 器 开始 ， 到 20 世 纪 80 年 代 学 习 多 层 感 知 絮 算法 ， 再 到 2010 年 
开始 兴起 深度 学 习 。 其 中 每 个 阶段 都 经 历 了 一 段 繁 采 期 ， 在 短 时 间 内 
取得 了 飞跃 性 的 进展 ， 随 后 便 征 较 长 时 期 的 缓慢 发 展 。 但 是 其 中 一 个 
不 同 点 在 于 ， 随 痢 每 次 复兴 ， 兴 盛 时 期 的 影响 一 直 有 增 无 减 。 了 最 新 的 
增长 动力 来 源 于 大 数据 的 普及 ， 而 NIPS 的 故事 早 就 为 这 一 天 的 到 来 做 
好 了 准备 。 


1. NIPS 会 议 中 的 所 有 文章 都 可 以 在 网 络 上 获取 : https://nips.cc/。 

2. 为 了 体验 生物 学 家 的 行 话 ， 请 参考 从 最 近 的 一 篇 科学 综述 中 随机 抽取 的 这 名 
W: “人 少 突 胶 质 细胞 包含 多 种 抑制 轴 突 再 生 的 蛋白 质 ， 包 括 髓 磷脂 相关 糖 蛋白 ， 神 经 突 

生长 抑制 剂 'Nogo' ， 少 突 胶 质 细胞 人 散 鞘 糖 蛋白 和 信和 号 素 "”。 (“Oligodendrocytes present a 

variety of proteins inhibitory to axon regrowth,including myelin-associated glycoprotein, the 


neurite-outgrowth inhibitor ‘Nogo,’oligodendrocyte-myelin glycoprotein, and 
semaphorins.") B. Laha, B. K. Stafford,and A. D. Huberman, “Regenerating Optic Pathways 
from the Eye to the Brain,"Science 356, no. 6342 (2017): 1032. 

这 位 神经 学 家 是 霍华德 :. 瓦 克 特 尔 (Howard Wachtel) ， 他 当时 正在 科罗拉多 大 学 波 
尔 德 分 校 研 究 海 免 的 神经 系统 。 


e 


4. 
5. 


6. 


7. 


Engaged 一 词 既 有 “订婚 ”之 意 ， 也 有 ”致力 于 做 .……” 之 意 。 译 者 注 
Krizhevsky, Sutskever, and Hinton, “ImageNet Classification with Deep Convolutional 


Neural Networks.” 


George Orwell, Nineteen Eighty-Four(London: Secker & Warburg, 1949). 这 本 书 最 近 有 
了 新 的 含义 。 
“机 器 学 习 中 的 女性 ”(Women in Machine Learning) 这 一 组 织 成 立 于 2006 年 ， 为 机 
器 学 习 领 域 的 女性 创造 了 机 会 ， 并 推动 了 她 们 的 研究 。 请 参阅 http:/wimlworkshop.org。 
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要 事 年 表 


1971 年 


诺 姆 . 乔 姆 斯 基 (Noam Chomsky) 在 《纽约 书评 》 杂 志 上 发 表 了 
《针对 斯 金 纳 的 驳斥 》 (The Case against B. F. Skinner) —JX, xm 
长 文 诱导 一 代 认 知 科学 家 偏离 了 对 学 习 行为 的 研究 。 
1982 年 


克 劳 德 .香农 (Claude Shannon) 出 版 了 开创 性 的 书籍 《通信 的 数 
学 理论 》 (A Mathematical Theory of Communication) ， 该 书 为 当代 
数字 通信 技术 英 定 了 基础 。 
1989 年 


卡 弗 . 米 德 (Carver Mead) 出 版 了 著作 《模拟 大 规模 集成 电路 和 
神经 系统 》 (Analog VLSI and Neural Systems) ， 开 创 了 基于 仿生 世 
片 的 神经 形态 工程 (neuromorphic engineering) 研究 领域 。 

2002 年 


Die TKR RA (Stephen Wolfram) 出 版 了 书籍 《一 种 新 的 
科学 》 (A New Kind of Science) 。 这 本 书 探究 了 细胞 自动 机 
(cellular automata) 的 计算 能 力 ， 这 些 算法 比 神经 网 络 更 简单 ， 但 是 
仍 能 完成 强大 的 运算 。 
2005 年 
塞 巴 斯 带 安 . 特 隆 的 团队 赢得 了 DARPA 自 动 驾 驶 汽车 大 赛 。 


2008 年 


托 拜 厄 斯 -德尔 布 吕 克 (Tobias Delbrück) 研发 了 一 种 非常 成 功 的 
脉冲 视网膜 芯片 “动态 视觉 传感器 ” (Dynamic Vision Sensor, ， 简 称 
DVS) ， 这 种 传感器 采用 异步 峰值 ， 而 不 是 像 现 在 的 数字 摄像 机 利用 
同步 帧 进行 图 像 捕获 。 


2013 年 


白宫 宣布 启动 美国 BRAIN 计 划 ”， 开 发 创新 的 神经 技术 ， 以 加 速 
我 们 对 大 脑 功能 的 理解 。 


12 
智能 时 代 


认 知 计算 的 时 代 即 将 到 来 。 很 快 我 们 惑 会 拥有 比 人 类 萄 驶 技术 更 
高 超 的 目 动 要 驶 汽车 。 我 们 的 房子 会 识别 出 我 们 的 喘 份 ， 预 见 我 们 的 
习惯 ， 有 客人 到 访 时 会 提醒 我 们 。 最 近 被 谷歌 收购 的 众 包 网 站 
Kaggle， 曾 经 举办 过 一 次 奖金 为 100 万 美元 的 用 CT 扫描 图 进行 肺癌 检 
测 的 竞赛 ， 它 还 为 美国 国土 安全 部 举办 了 一 场 奖 金 达 150 万 美元 的 竞 
赛 ， 希 望 寻找 到 能 在 机 场 安检 时 检测 出 藏匿 物 的 技术 。( 注 通过 认 知 计 
算 ， 医 生 的 助理 将 有 能 力 诊 断 罕 见 疾病 ， 提 高 整体 医疗 水 平 。 我 们 已 
经 有 了 数 千 个 这 样 的 应 用 ， 将 来 还 会 出 现 更 多 类 似 的 应 用 。 有 些 工作 
会 被 淘汰 ， 有 些 则 将 被 创造 出 来 。 尽 管 认 知 计算 技术 十 分 具有 站 履 
性 ， 我 们 的 社会 还 需要 时 间 来 吸收 和 适应 ， 但 它 对 人 类 来 说 并 不 构成 
生存 威胁 。 相 反 ， 我 们 正在 进入 一 个 发 现 和 启蒙 的 时 代 ， 我 们 会 变 得 
更 聪明 ， 更 长 寿 ， 人 类 文明 也 会 变 得 更 加 党 采 。 

2015 年 ， 我 曾 在 由 IBM 赞 助 的 旧金山 认 知 计算 会 议 上 发 表演 讲 。 
(BIBM 当 时 正在 对 沃 森 (Watson) 项 目 进行 大 规模 投资 ， 沃 森 是 一 个 
基于 大 量 事实 数据 库 集 合 的 程序 ， 窗 盖 信 息 的 范围 从 历史 到 流行 文 
人 化， 包罗万象 ， 可 以 使 用 自然 语言 接口 的 各 种 算法 进行 查询 。 肯 : 詹 宁 
斯 (Ken Jennings) 曾经 连续 192 天 在 74 场 智力 竞赛 节目 《危险 边缘 》 

(Jeopardy!) 中 赢得 了 胜利 ， 这 是 该 游戏 节目 历史 上 最 长 的 连 胜 纪 
录 。2011 年 ， 沃 森 在 该 字 目 中 击败 了 詹 宁 斯 ， 该 事件 引起 了 全 世界 的 
注意 。 

在 从 酒店 出 发 到 会 场 的 出 租车 上 ， 我 无 意 中 听 到 了 后 座 两 名 IBM 
管理 人 员 的 谈话 。IBM 当 时 正 要 推出 一 个 围绕 沃 森 的 平台 ， 该 平台 可 


使 用 非 结构 化 数据 库 ， 来 组 织 和 回答 健康 和 人 金融 服务 等 专业 领域 的 问 
题 。 沃 森 掌 握 的 数据 比 任何 人 可 能 知道 的 还 要 多 ， 可 以 回答 问题 并 提 
BEN ° SR, 与 其 他 机 器 学 习 程 序 一 样 ， 它 仍然 需要 人 类 提出 问 
题 ， 并 从 给 出 的 建议 中 进行 选择 。 

IBM 早 已 裁撤 择 了 硬件 部 门 ， 其 计算 机 服务 部 门 也 早已 风 交 不 
再 。IBM 在 沃 森 上 人 花费 了 巨 资 ， 想 要 依靠 其 软件 部 门 来 帮忙 完成 700 亿 
美元 的 营 收 计划 。 该 公司 在 莫 尼 黑 已 为 沃 森 物 联网 业务 投资 了 2 亿美 元 
用 来 建立 新 的 全 球 总 部 ， 电 这 是 IBM 在 欧洲 有 史 以 来 最 大 的 一 笔 投 
次 ， 为 的 是 满足 6000 多 个 客户 不 断 增长 的 利用 人 工 稼 能 来 改造 运 党 业 
务 的 需求 一 一 IBM 计 划 在 全 球 投入 30 亿 美元 来 发 展 认 知 计算 ， 而 这 只 
征 其 全 球 计 划 的 一 部 分 。 但 许多 其 他 公司 也 在 对 AT 进行 重大 投资 ， 现 
在 想 要 断言 哪些 投注 会 局 ， 哪 些 会 输 ， 还 为 时 尚 早 。 


21 世 纪 的 生活 


在 传统 医学 中 ， 通 常 采 用 相同 的 治疗 方法 对 所 有 患 有 特定 病症 或 
疾病 的 患者 进行 治疗 ， 但 现在 有 了 认 知 计算 ， 治 疗 已 变 得 更 加 个 性 
化 ， 也 更 精确 。 例 如 黑色素 瘤 ， 过 去 患 上 这 种 疾病 的 人 殉 等 同 于 被 判 
了 死刑 ， 但 现在 已 经 可 以 通过 对 患者 的 瘤 细 胞 进行 基因 测序 ， 并 针对 
其 病症 设计 出 独特 的 瘤 症 免 疫 疗法 ， 以 停止 其 至 逆转 黑色 素 瘤 的 病情 
发 展 。 虽 然 这 种 疗法 目前 的 治疗 费用 为 25 万 美元 ,但 当 对 患者 瘤 症 基 
因 组 测序 的 基础 成 本 降 至 几 千 美 元 ， 并 且 人 研制 所 需 单 区 隆 抗 体 的 成 本 
仅 为 几 百 美元 时 ， 最 终 几 乎 每 个 黑色 素 瘤 患者 都 有 人 能力 人 负担 相关 的 医 
疗 费 用 。 从 大 量 患 者 那里 收集 到 足够 多 变异 和 疗效 方面 的 数据 后 ， 医 
疗 决 俩 将 变 得 更 好 ， 且 收费 更 低 。 一 些 类 型 的 肺 冶 也 可 以 用 相同 的 方 
法 进行 治疗 。 制 药 公 司 正在 投资 冶 症 免疫 治疗 研究 ， 许 多 其 他 种 类 的 
六 症 也 许 很 快 束 能 被 治愈 。 如 果 没 有 机 器 学 习 方法 来 分 析 大 量 遗 传 数 
据 ， 这 一 切 都 不 可 能 实现 。 


我 曾 担任 过 NIH 院 长 的 顾问 委员 会 成 员 ， 为 推进 “BRAIN 计 划 ” 提 
供 建议 。 我 们 的 报告 强调 了 概率 和 计算 技术 的 重要 性 ， 该 技术 能 帮助 
我 们 解释 由 新 的 神经 记录 技术 产生 的 数据 。( 归 机 器 学 习 算 法 现在 被 用 
于 分 析 同 时 来 自 数 千 个 神经 元 的 记录 ， 分 析 来 自 自 由 移动 动物 的 复杂 
行为 数据 ， 以 及 从 电子 显微镜 的 一 系列 数字 图 像 中 自动 重建 三 维 解剖 
回路 。 通 过 对 大 脑 进 行 逆向 工程 ， 我 们 将 揭秘 自然 界 自身 发 现 的 许多 
新 算法 。 

NIH 在 过 去 的 50 年 中 资助 了 神经 科学 的 基础 研究 ， 但 当前 的 趋势 
是 将 越 来 越 多 的 资助 转向 了 能 够 尽快 实现 医疗 应 用 的 转化 研究 。 我 们 
当然 希望 能 转化 已 经 发 现 的 技术 ， 但 如 果 现 在 不 为 新 的 发 现 提供 资 
金 ， 那 么 从 现在 开始 的 50 年 里 ， 我 们 几乎 或 根本 没有 任何 技术 可 应 用 
于 临床 。 这 也 是 为 什么 现在 就 开展 一 些 基 础 研究 项 目 非常 重要 ， 例 
如 “BRAIN 计 划 ”， 该 举措 能 够 帮助 我 们 找到 在 未 来 治疗 精神 分 裂 症 和 
阿尔 北海 默 症 等 衰弱 性 脑 部 疾病 的 方法 。 针 


未 来 的 号 份 认证 


2006 年 ， 黑 客 从 美国 退伍 军人 事务 部 一 个 员工 家 中 的 电脑 里 鳃 取 
了 2650 万 退伍 军人 的 社会 安全 号 码 和 出 生日 期 信息 。 退 伍 军 人 行政 处 


都 不 需要 解密 数据 库 。 有 了 社会 安全 号 码 和 出 生日 期 ,黑客 可 以 盗 取 
任何 人 的 身份 信息 。 


在 印度 ， 超 过 10 亿 的 公民 可 以 通过 指纹 、 虹 膜 扫 描 、 照 请 和 12 位 
身份 号 码 〈 比 社会 安全 号 码 多 3 位 数字 ) 信息 进行 唯一 的 身份 识别 。 印 
度 的 Aadhaar 征 世界 上 最 大 的 生物 特征 识别 项 目 。 在 以 往 ， 一 位 想 要 得 
到 一 份 公共 文件 的 印度 公民 会 经 历 无 尽 的 等 待 ， 这 个 过 程 中 还 会 涉及 
许多 中 间 人 ， 每 个 人 都 会 同 他 索取 贿赂 。 而 如 今 ， 通 过 快速 生物 扫 


描 ， 公 民 可 以 直接 获得 补贴 食品 权 和 其 他 福利 待遇 ， 许 多 没有 出 生 证 
明 的 穷人 现在 也 拥有 了 便携 式 身份 认证 ， 可 随时 随地 在 几 秒 钟 内 识别 
出 身份 。 以 欺骗 手段 获取 福利 的 身份 盗窃 行为 已 经 销声匿迹 了 。 一 个 
人 的 身份 已 经 无 法 再 被 窃 ， 除 非 小 偷 准备 切断 这 个 人 的 手指 并 摘除 他 
BORBER e» © 


“印度 国家 登记 处 ?是 南 丹 : 尼 勒 卡 尼 (Nandan Nilekani) aT 7 
年 的 一 个 项 目 ， 他 是 一 个 亿 万 富 贫 ， 并 且 是 印度 外 包公 司 Infosys 的 联 
合 创始 人 。 尼 勒 卡 尼 庞 大 的 数字 数据 库 已 经 帮助 印度 在 身份 数字 化 方 
面 超越 了 许多 发 达 国 家 。 根 据 尼 勒 卡 尼 的 说 法 : “一 个 小 的 增 量变 化 乘 
以 10 亿 ， 了 束 是 一 个 巨大 的 飞跃 。..………. 如 果 10 亿 人 能 够 在 15 分 钟 内 拿 到 
手机 ， 而 不 用 花 上 一 周 ， 那 么 这 将 为 经 济 注入 一 股 巨 大 的 生产 力 。 如 
果 有 100 万 人 能 让 资金 自动 进入 他 们 的 银行 账户 ， 这 将 是 经 济 上 巨大 的 
EFIKE o 2) 
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私 ， 尤 其 是 当 生 物 识别 码 与 其 他 数据 库 《如 银行 账户 、 医 疗 记录 和 犯 
罪 记录 ) 以 及 其 他 公共 计划 (如 运输 ， 相 关联 时 。 隐 私 泄露 问题 在 美 
国 和 许多 其 他 数据 库 间 互相 关联 的 国家 已 经 很 挛 重 了 ， 即 使 它们 的 数 
据 是 匿名 的 。( 央 显而易见， 无 论 我 们 是 否 愿意 ， 我 们 的 手机 都 已 经 在 
追踪 我 们 的 行 踩 了 。 


任 交 机 亚信 的 是 起 


影 经 钊 将 人 工 智能 描述 为 像 人 类 一 样 走 路 和 说 话 的 机 郝 人 “。 不 
要 指望 AI 看 上 去 像 1984 年 的 科 约 电影 《终结 者 》 里 操 着 德国 口音 的 终 
结 者 那样 。 不 过 ， 你 会 与 2013 年 的 科幻 电影 《她 》 中 陕 受 水 一 样 的 AI 
声音 交流 ， 并 和 2017 年 科幻 电影 《星球 大 战 : 原 力 觉醒 》 中 R2-D2 和 
BB-8 一 类 的 机 器 人 进行 互动 。 AI 已 经 是 日 常生 活 的 一 部 分 。 认 知 设 


备 ， 比 如 亚马逊 Echo 智能 音箱 的 语音 助理 Alexa， 已 经 能 和 你 交谈 ， 并 
很 高 兴 能 让 你 的 生活 更 轻松 ， 更 有 满足 感 ， 就 像 2017 年 电影 《美女 与 
时 骨 》 中 的 时 钟 和 茶具 一 样 。 生 活 在 一 个 拥有 那样 物种 的 世界 里 会 是 
什么 样子 呢 ? 来 看 看 我 们 迈 回 社 交 机 器 人 的 第 一 步 吧 。 

目前 ， 人 工 知 能 的 进展 主要 集中 在 感官 和 认 知 方面 ， 运 动 和 行为 
智能 的 进展 还 未 见 端倪 。 有 时 我 演讲 的 开场 白 便 是 ， 大 脑 是 已 知 宇宙 
中 最 复杂 的 设备 。 但 我 的 妻子 比 阿 特 丽 斯 是 一 位 医生 ， 她 经 党 提醒 我 
w, KAW Rea ANH, MAA KIER, RSA RA 
性 (从 运动 性 演变 而 来 ) 是 不 同 的 。 

我 们 的 肌肉 、 肌 妥 、 皮 肤 和 骨骼 能 够 积极 地 适应 世界 的 变迁 、 地 
心 引 力 和 其 他 同类 。 从 内 部 来 说 ， 我 们 的 号 体 是 化 学 加 工 的 奇迹 ， 可 
以 将 食物 转化 为 做 工 精细 的 号 体 部 件 。 它 们 是 由 内 而 外 工作 的 终极 3D 
打印 机 。 我 们 的 大 脑 从 身体 各 个 部 分 的 内 脏 传感器 获得 输入 ， 这 些 传 
感 希 不 断 监 测 呈 体内 部 活动 ， 包 括 最 高 层次 的 皮层 表征 ， 束 内 部 优先 
事项 做 出 决定 ， 并 在 所 有 相互 竞争 的 要 求 之 间 维 持平 衡 。 从 真正 意义 
上 来 说 ， 我 们 的 号 体 是 大 脑 不 可 或 缺 的 组 成 部 分 ， 这 是 具 号 认 知 

(embodied cognition) 的 核心 原则 e 


哈 维 尔 : 英 维 兰 (Javier Movellan) 《图 12-1) 来 自 西 班 牙 ， 曾 经 
是 加 州 大 学 圣迭戈 分 校 神经 计算 研究 所 机 屁 感 知 实验 室 的 教员 和 联合 
主任 。 他 相信 ， 通 过 打造 能 够 与 人 类 互动 的 机 器 人 ， 我 们 将 比 采 用 传 
统 实验 研究 更 多 地 了 解 认 知 。 他 搭建 了 一 个 机 器 人 皮 儿 ， 当 你 对 它 微 
笑 时 ， 它 也 对 你 微笑 ， 硕 得 路 人 的 喜爱 。 哈 维尔 研究 了 婴儿 与 母亲 的 
互动 ， 他 得 出 的 结论 是 ， 婴 儿 会 尽量 从 母亲 那里 获得 更 多 的 微笑 ， 同 
时 尽量 减少 自己 的 努力 。 人 外 

哈 维 尔 搭 建 的 最 著名 的 社交 机 器 人 Rubi 看 起 来 像 是 一 个 天 线 宝宝 

(Teletubby) ， 有 着 丰富 的 面部 表情 ， 丑 毛 能 够 扬 起 表现 出 有 兴趣 ， 


相机 眼睛 能 够 转 来 转 去 ， 手 臂 也 可 以 抓 取 东西 〈 见 图 12-2) 。 在 加 州 


大 学 圣迭戈 分 校 儿童 早期 教育 中 心 ，18 个 月 大 的 幼儿 通过 Rubi 腹 部 的 
平板 与 局 进行 互动 。 


图 12-1 哈 维 尔 : 莫 维 兰 在 加 州 大 学 圣迭戈 分 校 的 机 器 人 研讨 会 上 接受 了 《科学 网 络 》 数 字 论 坛 
的 采访 。 哈 维尔 率 移 在 教室 里 推出 了 社交 机 器 人 ， 并 为 社交 机 器 人 Rubi 编 写 了 程序 ， 以 引起 
18 个 月 大 幼儿 的 注意 。 图 片 来 源 ， 罗 杰 - 宾 汉 姆 。 


幼儿 很 难 取悦 ， un 他 们 玩 几 分 钟 玩具 整 会 
失去 兴趣 ， 把 它们 扔 到 一 边 。 他 们 会 如 何 与 Rubi 互 动 呢 ? 为 了 安全 起 
见 ， uu EN TESK, BAM RHE T E 
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一 次 ， 机 器 人 要 执行 的 程序 是 ， 当 手 辟 被 拉 开 时 要 放声 大 活 。 这 阻 
止 了 男孩 们 的 “又 力 ”行为 ， 并 且 让 女孩 们 争 相 拥抱 Rubi。 这 有 是 社区 工 
程 领域 学 到 的 重要 一 课 。 


幼儿 通过 指向 房间 内 的 物体 〈 如 时 钟 ) 与 Rubi 玩 页。 如 果 Rubi 不 
能 在 0.5~1.5 秒 的 时 间 窗 口内 将 视线 移 疝 物体 ， 那 么 幼儿 束 会 失去 兴趣 
并 走 开 。 如 果 反 应 太 快 ，Rubi 的 机 械 性 就 太 明 显 了 ; 如 果 反 应 太 慢 ， 
Rubi 又 会 让 孩子 们 感到 很 无 聊 。 一 旦 互惠 关系 形成 ， 孩 子 们 融会 将 
Rubi 看 作 是 一 个 有 感情 的 生命 ， 而 不 是 一 个 玩具 。 当 Rubi 被 带 走 (到 


维修 店 进行 升级 ) 后 ， 孩 子 们 会 感到 不 安 。 他 们 会 被 告知 Rubi 感 到 不 
舒服 ， 会 在 家 休息 一 天 。 在 一 项 研究 中 ，Rubi 被 要 求教 幼儿 学 习 芬兰 
语 单词 ， 他 们 学 习 的 速度 和 学 英语 单词 一 样 快 ， 教 他 们 学 习 一 首 流行 
歌曲 的 效果 就 更 明显 了 。 


图 12-2 Rubi 在 教室 里 与 幼儿 们 进行 互动 。 Rubi 的 头 可 以 旋转 ， 眼睛 是 相机 ， 嘴 和 眉毛 都 十 分 
CARAN Rubi 汰 顶 上 浓密 的 光纤 会 随 着 它 的 心情 而 改变 颜色 。 图 片 来 源 : 哈 维 尔 莫 维 


之 前 对 将 Rubi 引 入 课堂 环境 的 顾 虚 之 一 ， 是 教师 可 能 会 担心 目 己 
在 某 一 天 被 机 器 人 取代 。 但 事实 恰恰 相反 : 老师 对 Rubi 表 示 欢 迎 ， 
为 它 可 以 作为 一 位 辅助 管理 班级 秩序 的 助手 ， 特 别 是 在 教室 里 有 访客 
时 。 A ee el 育 的 实验 是 “ 千 个 Rubi 项 目 ” (thousand 
Rubi project) 。 这 个 想法 是 批量 生产 Rubi， 将 它们 放 在 上 千 个 教室 


中 ， 每 天 通过 互联 网 从 数 干 次 实验 中 收集 数据 。 教 育 研 究 的 一 个 问题 
征 ， 在 一 所 学 校 适用 的 方案 可 能 不 适用 于 另 一 所 学 校 ， 因 为 学 校 之 间 
存在 很 多 差异 ， 特 别 是 教师 之 间 的 差异 。“ 千 个 Rubi 项 目 ” 也 许 能 够 考 
察 许多 关于 如 何 改进 教育 实践 的 想法 ， 并 且 可 以 探究 在 各 地 服务 于 不 
同 社 会 经 济 群体 的 学 校 之 间 的 差异 。 虽然 能 够 让 项 目 开展 起 来 的 资源 
一 直 没 有 到 位 ， 但 这 仍然 是 一 个 好 主意 ， 应 该 有 人 来 跟 进 。 


双 腿 站 立 的 机 器 人 很 不 稳定 ， 需 要 一 个 复杂 的 控制 系统 来 防止 它 
们 翻 倒 。 而 旦 事实 上 ， 山 儿 需 要 12 个 月 才能 学 会 走路 而 不 会 控 倒 。 在 
第 2 章 中 已 经 做 过 简短 介绍 的 罗 德 尼 . 布 鲁 克 斯 ( 见 图 12-3) ， 想 要 打 
造 能 够 像 昆虫 一 样 走路 的 6 条 腿 机 器 人 。 他 发 明了 一 种 新 型 控制 希 ， 可 
以 对 6 条 腿 的 动作 进行 排序 ， 能 够 让 机 器 人 虹 螂 癌 前 移动 并 保持 稳定 。 
他 那 开创 性 的 想法 是 ， 让 腿 部 与 环境 进行 的 机 械 交 互 作用 代替 抽象 的 
计划 和 计算 。 他 认为 ， 要 让 机 顺 人 完成 日 党 任务 ， 它 们 较 高 的 认 知 能 
力 应 该 基于 感官 运动 (sensorimotor) 与 环境 的 相互 作用 ， 而 不 是 抽象 
的 推理 。 大 象 具 有 高 度 的 社会 性 ， 有 着 强大 的 记忆 力 ， 并 且 还 是 絮 械 
天 才 ， 亿 但 它们 不 会 下 国际 象棋 。( 志 1990 年 ， 布 鲁 克 斯 继续 创立 了 
iRobot， 迄 今 为 止 已 经 卖 掉 了 超过 1000 万 个 Roombas 扫 地 机 右 人 来 清 少 
更 多 的 地 板 。 


工业 机 器 人 具有 坚硬 的 关节 和 强大 的 伺服 电机 ， 这 使 得 它们 看 起 
来 和 感觉 起 来 都 很 机 械 化 。2008 年 ， 布 鲁 克 斯 创立 了 Rethink Robotics 
Au. Xue HS =R, TORE RNA 
Baxter。 它 的 每 个 手臂 可 以 按 要 求 来 移动 ， 还 会 日 行 编程 以 重复 执行 
过 的 动作 顺序 ， 和 信 们 不 必 再 编写 一 个 程序 来 移 动 Baxter 的 手臂 了 。 


图 12-3 mm 布鲁克 斯 在 观察 机 器 人 Baxter， 它 正 准 备 将 一 个 塞 盖 揪 入 桌 上 的 一 个 洞 中 。 布 
鲁 克 斯 是 一 位 连续 创业 者 ， 之 前 创建 了 iRobot， 生 产 了 扫地 机 器 人 Roombas， 现 在 他 又 创建 了 
Rethink， 生 产 Baxter。 图 片 来 源 : 罗 德 尼 . 布 鲁 克 斯 。 


莫 维 兰 比 布鲁克 斯 更 进一步 ， 开 发 出 了 一 种 名 为 “Diego San" (在 
日 本 制造 ) 的 机 器 人 人 宝宝" 二， 其 电动 机 是 气动 的 (由 气压 驱动 ) ， 对 
比 大 多 数 工 业 机 器 人 使 用 的 刚性 转 矩 电机 ,， rage Sanit AHJAR 
都 更 柔软 ( 见 图 12-4) 。 制 作 它 们 是 基于 这 样 一 个 灵感 : 当 我 们 拿 起 
某 件 东 西 时 ， 我 们 身体 中 的 每 一 块 肌肉 都 会 在 一 VEU Lanes) (如 
果 我 们 一 次 只 移动 一 个 关节 ， 看 起 来 就 会 像 机 器 人 ) 。 这 使 我 们 能 够 
更 好 地 适应 不 断 变化 的 负载 情况 以 及 与 世界 的 互动 。 大 脑 可 以 同时 日 
然 流 畅 地 控制 号 体 中 的 所 有 自由 度 一 一 所 有 关节 和 肌肉 一 一 而 
DiegoSan 项 目的 目标 是 找 出 大 脑 是 怎么 做 到 这 一 点 的 。Diego San 的 脸 
上 有 27 个 运动 部 件 ， 可 以 表达 各 种 各 样 的 人 类 情感 。\ 志 机 器 人 宝宝 的 
动作 非常 通 真 。 虽 然 哈 维 尔 有 几 个 成 功 的 机 右 人 项 目 ， 但 Diego San} 


不 是 其 中 之 一 。 他 并 不 知道 如 何 使 机 器 人 遇 儿 的 表现 像 人 类 竖 儿 那样 
流畅 。 


图 12-4 机 器 人 宝宝 Diego San。 气 压 传 动 装置 让 所 有 关节 都 能 乎 稳 移 动 ， 这 样 就 能 跟 人 类 握手 


T 。 面 部 由 大 卫 : 汉 森 (David Hanson) 和 汉 森 机 器 人 公司 提供 。 关 于 机 器 人 面部 表情 的 动 
画 ， 可 以 参考 “Diego Installed”， 由 哈 维 尔 : 莫 维 兰 提供 ，https:/www.youtube.com/watch? 
v=knRyDcnUc4U/ ° 


机 万 已 经 会 识别 人 类 面部 表情 


你 能 想象 当 你 在 iPhone (苹果 手机 ) 上 看 到 股价 暴跌 ，iPhone 问 你 
为 什么 不 高 兴 ， 会 是 怎样 一 种 感觉 吗 ? 你 的 面部 表情 是 情绪 的 窗口 ， 
深度 学 习 现在 已 经 可 以 探 进 这 个 窗口 了 。 传 统 上 ， 人 们 认为 认 知 和 人 情 


绪 是 大 脑 两 个 独立 的 功能 。 一 般 认 为 ， 认 知 是 皮层 功能 (cortical 
function) ， 而 情绪 是 皮层 下 的 功能 (subcortical function) 。 事 实 上 ， 
有 些 皮层 下 结构 可 以 调节 情绪 状态 ， 比 如 查 仁 核 (amygdala) 。 当 情 
绪 水 平 很 高 ， 特 别 是 感到 奴 惯 的 时 候 ， 奉 仁 核 就 会 起 作用 ， 但 这 些 结 
构 与 大 脑 皮 层 有 强烈 的 相互 作用 。 例 如 ， 在 社交 互动 中 ， 奋 仁 核 的 参 
与 会 增强 人 脑 对 该 事件 的 记忆 。 认 知 和 情绪 是 彼此 交织 的 。 

在 20 世 纪 90 年 代 ， 我 与 加 州 大 学 旧金山 分 校 的 心理 学 家 保罗 . 艾 殉 
= (Paul Ekman) 〈 见 图 12-5) 有 过 合作 。 艾 克 曼 是 世界 著名 的 面部 
RRA, CHE CAT Rit) (Lie to Me) 系列 中 卡尔 :莱特 曼 

(Cal Lightman) 博士 在 真实 世界 中 的 原型 ， 但 他 本 人 比 剧 中 的 卡尔 要 
和 闭 很 多 。 艾 克 曼 曾 去 过 巴布亚 新 几内亚 ， 试 图 了 解 前 工业 时 代 的 文 
化 是 否 像 我 们 一 样 ， 能 够 做 出 情绪 化 的 面部 表情 。 他 在 研究 过 的 所 有 
人 类 社会 中 发 现 了 六 种 普遍 的 情感 表达 : AR ` ABD» TRURS > PC 
了 鸡 惧 和 厌恶 。 从 那 以 后 ， 其 他 常见 的 面部 表情 也 被 提取 了 出 来 ， 但 人 
们 在 对 这 些 表 情 的 理解 上 并 没有 达成 共识 。 有 些 表 达 ， 如 人 娩 惧 ， 在 一 
些 孤 立 的 社会 中 有 着 不 同 的 解释 。 

1992 年 ， 艾 克 曼 和 我 组 织 了 一 个 由 美国 国家 科学 基金 会 (NSF) 
赞助 的 关于 面部 表情 理解 的 规划 研讨 会 。( 电 在 那个 时 期 ， 要 获得 对 面 
部 表情 研究 的 资金 困难 重重 。 我 们 的 研讨 会 将 神经 科学 、 电 子 工程 和 
计算 机 视觉 等 方面 的 研究 人 员 ， 连 同心 理学 家 聚集 到 了 一 起 ， 为 表情 
分 析 领 域 揭 开 了 新 篇 章 。 这 件 事 对 我 来 说 是 一 个 启示 ， 尽 管 面 部 表情 
的 分 析 在 科学 、 医 学 和 经 济 等 诸多 领域 都 扮演 着 重要 角色 ， 但 其 重要 
性 却 一 直 被 基金 机 构 所 忽视 。 


图 12-5 1967€, R7. 六 克 曼 和 巴布亚 新 儿 站 亚 原 住民 。 他 找到 了 6 种 常见 的 面部 情感 表达 的 
证 据 ， 包 括 快乐 、 莫 伤 、 愤 怒 、 惊 讶 、 仅 惯 和 厌恶 。 保 罗 曾 为 美剧 《 别 对 我 撤 谎 》 提 供 咨 
询 ， 以 保证 每 一 集 的 内 容 有 科学 依据 。 卡尔 莱特 曼 博 士 的 角色 大 臻 上 是 以 艾 克 曼 为 原型 塑造 
出 来 的 。 图 片 来 源 ， 保 罗 . 艾 克 曼 。 


芯 殉 曼 开 发 了 面部 动作 编码 系统 (Facial Action Coding System, 
以 下 简称 FACS) 来 监控 面部 44 块 肌肉 的 状态 。 由 艾 克 曼 培训 的 FACS 
专家 需要 花费 一 个 小 时 来 标记 长 度 为 一 分 钟 的 视频 ， 每 次 标记 一 帧 。 
o 动态 的 ， 可 以 延续 若干 秒 ， 但 是 艾 克 曼 发 现 ， 有 些 表情 只 

续 了 几 帧 。 这 些 “ 微 表情 ”泄露 了 大 脑 被 抑制 的 情感 状态 ， 常 常 能 说 
明 ， 有 时 还 全 揭示 无 意识 的 情绪 反应 。 例 如 ， 在 婚姻 咨询 环节 中 出 现 
的 细微 的 厌恶 表情 ， 就 是 一 个 预示 婚姻 会 失败 的 可 靠 的 信号 。( 人 四 


在 20 世 纪 90 年 代 ， 我 们 使 用 了 一 些 演 员 的 视频 录像 来 训练 反问 传 
播 神经 网 络 ， 对 FACS 进 行 目 动 化 。 这 些 训练 有 素 的 演员 可 以 像 艾 克 曼 
那样 控制 脸 上 的 每 一 块 肌肉 。1999 年 ， 由 我 的 研究 生 王 丽 安 :斯 图 尔 
特 - 巴 特 利 特 (Marian Stewart-Bartlett， 见 图 12-6) 利用 反 回 传播 训练 


的 网 络 ， 在 实验 室 识别 面部 表情 的 准确 率 达 到 了 96%， 前 提 是 要 具备 
完美 的 照明 ， 周 正 的 面部 角度 ， 以 及 对 视频 进行 手动 时 间 分 割 。 人 思 ) 这 
个 网 络 的 识别 效果 很 不 错 ， 于 是 1999 年 4 月 5 日 ， 玛 丽 安 和 我 在 伪 安 : 索 
H5 (Diane Sawyer) 主持 的 《 早 安 美国 》 (Good Morning America) 5 
目 中 间 公 众 展示 了 这 一 成 果 。 在 成 为 加 州 大 学 对 送 戈 分 校 神 经 计算 研 
究 所 的 一 名 教师 后 ， 玛 坝 安 接 着 又 开发 了 计算 机 表情 识别 工具 箱 
(Computer Expression Recognition Toolbox， 以 下 简称 CERT) 。 pes 
着 计算 机 的 速度 变 得 越 来 越 快 ，CERT 已 经 能 够 进行 实时 分 析 ， 可 以 标 
记 视 频 流 中 不 断 变化 的 人 类 面部 表情 。 
2012 年 ， 玛 丽 安 和 哈 维 尔 : 英 维 兰 将 面部 表情 的 自动 分 析 技 术 商 业 
化 ， 创 立 了 一 家 名 为 “Emotient” 的 公司 。 保 罗 . 艾 克 受 和 我 为 这 家 公司 
担任 科学 顾问 。Emotient 开 发 的 深度 学 习 网 络 能 够 以 96% 的 准确 率 ， 
在 各 种 不 同 的 照明 条 件 下 ， 利 用 非 正 面 面 部 信息 实时 地 对 自然 行为 做 
出 判断 。 在 Emotient 的 一 个 演示 中 ， 其 网 络 在 儿 分 钟 内 残 检 测 到 唐 纳 
德 . 特 朗 普 (Donald Trump) 在 共和 党 的 首 场 初 选 辩论 中 ， 对 一 个 焦点 
小 组 时 的 情绪 影响 最 大 。 相 比 之 下 ， 民 音调 查 人 员 花 了 数 天 时 间 才 得 
出 了 同样 的 结论 ， 专 家 们 更 是 在 几 个 月 之 后 才 认 识 到 ， 情 感 投 入 是 争 
取 到 选民 的 关键。 焦点 小 组 中 最 强烈 的 面部 表情 是 愉 避 ， 其 次 是 芍 
惧 。 此 外 ，Emotient 的 深度 学 习 网 络 在 尼尔森 收视 率 (Nielsenratings) 
调查 结果 发 布 前 的 几 个 月 ， 就 预测 到 了 哪些 电视 剧 将 大 热 。Emotient 
于 2016 年 1 月 被 苹果 公司 收购 ， 玛 丽 安 和 哈 维 尔 现 在 均 在 苹果 公司 任 


口 
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图 12-6 正在 演示 面部 表情 分 析 技 术 的 玛丽 安 . 斯 图 尔 特 -巴特 利 特 。 时 间 轴 上 显示 的 是 深度 学 习 
网 络 的 输出 ， 正 在 识别 面部 表情 中 快乐 、 悲 伤 、 惊 证 、 孜 惧 、 惯 候 和 厌恶 的 情绪 。 图 片 来 
Wa: 玛丽 安 . 斯 图 尔 特 -巴特 利 特 ，Robert Wright/LDV Vision Summit 2015 ° 

在 不 久 的 将 来 ， 你 的 iPhone 可 能 不 仅 会 问 你 为 什么 不 高 兴 ， 还 可 
能 帮助 你 冷静 下 来 。 


13 年 前 ， 在 温哥华 举行 的 2005 年 NIPS 大 会 上 ， 我 和 加 州 大 学 圣 迭 
戌 分 校 计算 机 科学 与 工程 系 的 同事 加 里 . 科 特 雷 尔 (Gary Cottrell) 在 一 
起 吃 早餐 。 加 里 属于 20 世 纪 80 年 代 PDP 团 队 最 初 的 一 批 成 员 ， 也 是 
PDP 团 队 仍 留 在 加 州 大 学 圣迭戈 分 校 为 数 不 多 的 几 人 之 一 。 他 是 20 世 
纪 60 年 代 最 后 几 个 仍 在 坚持 神经 科学 人 研究 团体 中 的 一 员 ， 留 着 马尾 辫 
和 灰白 的 胡须 。 他 读 到 了 NSF 发 表 的 一 项 声明 ， 要 求 为 “学 习 科 学 中 
心 ” (Science of Learning Centers) 提供 提案 。 其 中 让 他 感 兴趣 的 内 


容 ， 是 连续 5 年 每 年 500 万 类 元 的 预算 ， 而 且 还 可 以 再 延长 5 年 。 他 想 提 
交 一 份 项 目 申 请 ， 并 询问 我 是 否 愿 意 帮 忙 。 他 当时 说 ， 如 果 成 功 了 ， 
他 束 不 用 再 写 别 的 基金 申请 了 。 我 告诉 他 说 ， 如 果 成 功 的 话 ， 这 项 经 
费 能 让 他 终身 从 事 这 一 事业 了 。 他 笑 了 起 来 ， 之 后 我 们 开始 了 合作 。 


最 终 我 们 的 申请 被 批准 了 ， 如 我 所 料 ， 尽 管 每 年 提供 300 页 的 年 度 
报告 很 让 人 裔 演 ， 但 取得 的 科学 成 果 非 常 惊人 。 我 们 的 时 间 动 态 学 习 
中 心 (Temporal Dynamics of Learning Center， 以 下 人 简称 TDLC) 共有 
来 自 全 球 18 个 机 构 的 100 多 名 研究 人 员 。 在 由 NSF 资 助 的 6 个 学 习 科 学 
中 心里 ， 我 们 这 个 是 最 以 神经 科学 和 工程 为 导 同 的 ， 我 们 将 机 器 学 习 
的 最 新 进展 纳入 了 这 些 项 目 中 ( 见 图 12-7) Rubi I CERTE E 
TDLC 资 助 的 两 个 项 目 。 我 们 还 有 一 个 移动 脑 电 图 实验 室 ， 让 被 试 者 
可 以 在 虚拟 环境 中 自由 漫游 ， 同 时 记录 他 们 的 脑 电 波 。 在 大 多 数 脑 电 
图 实验 室 中 ， 被 试 者 必须 坐 着 不 动 ， 眼 睛 都 不 能 有 ， 以 避免 产生 假 
象 。 我 们 使 用 了 ICA 来 抵消 运动 假象 ， 让 我 们 能 够 观察 被 试 者 主动 控 
索 环境 ， 与 其 他 人 互动 时 的 大 脑 活动 。 


图 12-7 新 的 学 习 科 学 包括 机 器 学 习 和 神经 科学 ， 以 及 来 自 心 理学 和 教育 的 见解 。 图 片 来 源 : 


Meltzoff , Kuhl,Movellan, and Sejnowski, “Foundations for a New Science of Learning,” 图 1 ° 
以 下 是 TDLC 研 究 人 员 开 展 的 众多 项 目 中 的 一 部 分 。 


罗 格 斯 分 子 和 行为 神经 科学 中 心 (Center for Molecular and 
Behavioral Neuroscience at Rutgers) 的 艾 普 利 : 本 纳 斯 奇 (April 
Benasich) 开发 了 一 项 测试 ， 可 以 根据 宝宝 的 听觉 感知 时 间 来 预测 贤 
儿 是 否 会 在 语言 习 得 和 学 习 能 力 上 存在 缺 聊 ; 她 指出 ， 这 些 缺 陷 可 以 
通过 目 适 应 地 控制 声音 出 现 的 时 间 和 奖励 反馈 来 纠正 ， 以 便 宝宝 能 够 
发 育 出 正常 的 听力 、 语 言 和 学 习 能 力 。( 思 这 些 结果 所 针对 的 实验 对 象 
年 龄 跨度 从 3 个 月 到 5 岁 。 即 使 正常 发 育 的 婴儿 也 会 从 互动 环境 中 受 
益 。 艾 普 利 于 2006 年 创立 了 AAB Research LLC， 让 快速 听觉 处 理 技术 

(rapid auditory processing technology， 人 简称 RAPT) 进入 普通 家 庭 ， 以 
提高 婴儿 的 学 习 能 力 。 


玛丽 安 . 斯 图 尔 特 - 巴 特 利 特 和 哈 维尔 莫 维 兰 使 用 机 器 学 习 自动 合 
记 学 生 的 面部 表情 ， 信 ) 当 学 生 看 起 来 很 肖 形 ， 似 乎 不 太 理解 授课 内 容 
时 ， 教 师 可 以 收 到 提醒 并 采取 措施 。 利 用 深度 学 习 技术 ， 这 一 过 程 如 
今 可 以 自动 且 准 确 地 同时 记录 班级 中 每 个 孩子 的 表情 信息 。 在 市 场 营 
销 、 精 神 病 学 和 法 医学 等 领域 ， 还 有 很 多 的 面部 表情 分 析 应 用 有 待 开 
发 o 


加 州 大 学 圣迭戈 分 校 的 哈 罗 德 . 帕 施 勒 (Harold Pashler) 和 科 罗 拉 
多 大 学 博 尔 德 分 校 的 迈克 尔 : 莫 泽 尔 (Michael Mozer) 研究 了 12 年 级 的 
学 生 在 数 年 内 的 学 习 表 现 ， 以 扩充 先前 针对 大 学 生 为 期 数 月 的 研究 。 
研究 结果 表明 ， 个 性 化 的 时 间 分 散 式 复习 比 短期 的 填 鸭 式 复习 更 能 改 
善 对 学 习 材料 的 长 期 记忆 “。 全 他 们 表示 ， 当 学 习 材料 需要 在 学 生 的 记 
忆 中 停留 较 长 时 间 时 ， 学 习 的 最 佳 间 隅 时 间 最 好 设 得 长 一 些 。 他 们 在 
语言 课程 中 为 学 生 们 制定 了 最 佳 复 习 时 间 表 ， 并 帮助 他 们 取得 了 优异 
的 成 绩 。 

TDLC 的 博士 后 研究 员 贝 丝 : 罗 戈 夫 斯 基 (Beth Rogowsky) 、 罗 格 
斯 大 学 的 保 拉 : 塔 拉 尔 (Paula Talal) AER X ^E BJ BER RK EA 

(Barbara Calhoun) 表明 ， 在 使 用 口头 或 书面 材料 的 学 习 方 法 之 间 没 

有 统计 学 差异 ， 而 且 ， 无 论 是 即时 理解 还 是 延迟 理解 ， 偏 好 的 学 习 方 
式 和 教学 方法 之 间 都 不 存在 联系 。( 包 学 生 使 用 自己 更 偏好 的 方式 学 习 
不 会 带 来 任何 积极 的 效果 ， 这 也 就 意味 着 大 型 企业 宣传 的 针对 个 人 学 
习 方 式 的 培训 和 测试 材料 ， 并 不 会 提升 课堂 的 学 习 戏 果 。 

保 拉 : 塔 拉 尔 在 2014 年 启动 的 1500 万 美元 的 “全 球 学 习 X 
"E" (Global Learning X-Prize) 中 发 挥 了 重要 作用 。 该 奖项 鼓励 教育 创 
靳 ， 其 目标 是 开发 开源 代码 和 可 扩展 软件 ， 使 发 展 中 国家 的 儿 鞋 能 够 
在 18 个 月 内 掌握 基本 的 阅读 、 写 作 和 算术 技能 。 为 “全 球 学 习 X 奖 ”所 
做 研究 的 积极 影响 ， 将 在 未 来 数 十 年 内 在 全 世界 引起 回 啊 。 

TDLC 的 科学 总 监 安 德 里 亚 : 千 时 (Andrea Chiba) 在 2014 年 上 
海 “ 学 习 科学 国际 大 会 ?上 介绍 了 关于 所 有 的 学 习 行为 如 何 改 变 大 脑 结 


构 的 研究 。 全 这 令 许 多 代表 都 感到 惊 证 ， 他 们 一 直 相信 儿 童 来 到 世界 
上 时 就 具备 了 一 定 的 潜力 ， 对 那些 能 力 不 足 或 者 年 龄 过 大 的 学 习 者 来 
说 ， 教 育 只 是 一 种 浪费 。 世 界 各 地 仍然 存在 着 巨大 的 人 类 潜力 有 待 控 
TE 

我 们 发 现 教育 中 最 大 的 问题 不 是 科学 方面 的 ， 而 是 来 自 社会 和 广 
化 。 美 国有 13500 个 学 区 ， 每 个 学 区 都 有 自己 的 学 校 董事 会 ， 负 责 决定 
课程 、 教 师资 格 和 最 佳 实 路 ， 需 要 数 十 年 才能 实现 这 些 目标 ， 并 有 针 
对 性 地 处 理 这 些 问题 。 在 教师 实施 教学 之 前 ， 他 们 还 必须 管理 教室 秩 
序 ， 这 对 于 低 年 级 和 市 中 心 的 学 校 来 说 尤其 具有 挑战 性 。 提 出 要 求 的 
家 长 们 可 能 不 会 意识 到 教学 资源 的 医 乏 导致 了 教师 中 的 职业 倦 总 现象 
频 发 ， 而 教师 工会 的 影响 也 难 辞 其 答 ， 后 者 往往 阻碍 了 日 积 月 累 的 努 
力 。 

教学 从 根本 上 来 说 是 一 项 劳动 密集 型 活动 。 最 优质 和 最 有 效 的 孝 
学 方式 是 让 经 验 丰富 的 成 人 教师 和 学 生 之 间 进 行 一 对 一 交流 。 付 我 们 
背负 着 一 个 专 为 大 众 教育 而 设计 的 流水 线 系统 ， 对 学 生 按 年 龄 进行 划 
分 ， 教 师 在 大 班 里 年 复 一 年 地 传授 相同 的 课程 。 这 可 能 是 一 种 生产 汽 
车 的 好 方法 ， 在 劳动 力 只 接受 基本 教育 就 能 满足 社会 需求 的 年 代 ， 这 
样 的 方法 还 算 行 得 通 。 但 是 当 工 作 岗位 需要 更 高 水 平 的 培训 和 终身 学 
习 来 更 新 工作 技能 时 ， 这 个 系统 就 落伍 了 。 诚然 ， 作 为 成 年 人 ， 回 到 
学 校 可 能 是 痛苦 和 不 切实 际 的 。 我 们 正在 经 历 的 信息 革命 已 经 超越 了 
劳动 力 世代 更 奉 的 时 间 尺 度 。 幸 运 的 是 ， 出 现在 互联 网 上 的 新 技术 可 
能 会 改变 我 们 的 学 习 方 式 。 学 习 科学 中 心 于 2006 年 创立 时 ， 我 们 并 没 
有 预见 到 ， 互 联网 正在 重 构 我 们 的 学 习 版 图 。 


成 为 更 好 的 学 习 着 


幕 课 在 2011 年 突然 流行 起 来 ，《 纽 约 时 报 》 发 表 了 一 篇 热门 文 
章 ， 提 到 了 一 门 大 受 欢迎 的 斯 坦 福 大 学 人 工 智 能 在 线 课程 。( 岂 大 量 的 
学 生 参 加 莫 课 ， 他 们 在 互联 网 上 这 一 前 所 未 有 的 学 习 行为 ， 在 全 世界 
引起 了 广泛 的 关注 。 几 乎 在 一 夜 之 间 ， 很 多 新 公司 获得 了 融资 ， 这 些 
公司 专注 于 开发 以 及 免费 在 线 发 布 世界 上 -一些 最 优秀 的 教育 者 的 讲 
座 。 只 要 能 连 上 网 ， 人 们 就 能 随时 随地 观看 这 些 讲座 。 除 了 讲座 之 
外 ， 课 程 内 容 还 包括 测验 、 考 试 、 供 学 习 者 交流 的 论坛 、 助 教 辅导 ， 
以 及 自发 组 织 的 本 地 “见面 会 "， 方 便 学 生 在 非 正式 的 环境 中 讨论 课程 
内 容 。 莫 课 的 受众 面 已 经 大 大 增加 了 2015 年 , “车 课 人 ”的 数量 翻 
了 一 番 ， 从 估算 的 1700 万 增加 到 了 3500 多 万 。 慕 课 绕 开 了 现 有 教育 体 
系 中 的 所 有 限制 因素 。 


2013 年 1 月 ， 在 加 州 大 学 尔 湾 分 校 由 美国 国家 科学 院 主办 的 一 次 会 
议 上 ， 我 遇 到 了 色色 拉 : 奥 克利 。 尽 管 她 读书 的 时 候 在 数学 和 科学 方面 
表现 灾 佳 ， 但 她 现在 是 位 于 密歇根 州 奥 本 山 和 有 罗切斯特 山 市 的 奥克兰 
大 学 的 一 名 电子 工程 学 教授 。 她 是 曾 主 修 人 文科 学 专业 的 美国 陆军 上 
尉 ， 回 到 学 校 之 前 ， 她 在 白 令 海 的 拖网 渔船 上 担任 俄语 翻译 。 后 来 她 
克服 了 自己 在 数学 方面 的 心理 障碍 ， 获 得 了 电子 工程 博士 学 位 。 在 会 
议 的 晚 右 上 ， 我 发 现 色 色拉 和 我 在 学 习 方 面 有 着 相似 的 看 法 ， 她 当时 
正在 写 一 本 书 ， 书 名 是 《学 习 之 道 》 (A Mind for Numbers: How to 
Excel at Math and Science) 。 于 是 我 洲 请 她 到 加 州 大 学 圣迭戈 分 校 为 
高 中 学 生 和 老师 们 举办 一 次 TDLC 讲 座 。 


区 芭 拉 受到 了 学 生 们 的 热烈 欢迎 ， 很 明显 她 是 一 位 顾 有 天 赋 的 老 
师 。 她 的 方法 和 实用 性 见解 源 于 我 们 对 大 脑 的 了 解 ， 所 以 我 们 联手 为 
Coursera 开 发 了 一 门 慕 课 ， 名 为 “学 会 如 何 学 习 : 帮助 你 掌握 复 洒 学 科 
的 强大 智力 工具 ”( 见 图 12-8; https://www.coursera.org/learn/learning- 
how-to-learn/) ， 于 2014 年 8 月 推出 。 它 目前 是 世界 上 最 受 欢 迎 的 莫 
课 ， 在 头 四 年 里 注册 的 学 习 者 超过 300 万 ， 并 且 每 天 还 会 吸引 1000 个 来 
目 200 多 个 国家 的 新 学 员 。“ 学 会 如 何 学 习 ” 根 据 我 们 对 大 脑 学 习 方式 的 
了 解 ， 为 你 提供 了 成 为 更 好 学 习 者 所 需 的 工具 。 我 们 学 习 者 的 反馈 非 


常 积极 ， 于 是 我 们 又 开发 了 第 二 个 名 为 “思维 转换 ”(Mindshift) AYA 
课 ， 以 帮助 那些 想 要 转业 或 改变 生活 方式 的 人 。 这 两 门 莫 课 课程 的 资 
料 都 可 以 在 网 络 上 免费 获取 。 


Learning 
How to Learn 


图 12-8 芭 芭 拉 : 奥 克利 介绍 “学 会 如 何 学 习 ” 莫 课 。 已 有 超过 300 万 学 员 参 加 了 该 课程 ， 使 其 成 
为 全 球 最 受 欢 迎 的 互联 网 课程 。 图 片 来 源 ， 芭 芭 拉 : 奥 克 利 。 

“学 会 如 何 学 习 ” 这 一 课程 ， 束 如 何 成 为 更 好 的 学 习 者 ， 如 何 处 理 
测试 焦虑 ， 如 何 避 免 拖 延 ， 以 及 我 们 对 大 脑 怎 样 学 习 的 认识 等 话题 提 
供 了 实用 性 的 建议 。 这 是 一 门 为 期 一 个 月 的 免费 课程 ， 由 长 度 为 5~10 
分 钟 的 视频 剪辑、 小 测验 和 综合 测试 组 成 ， 现 已 被 翻译 成 20 多 种 语 
言 。 课 程 的 基石 之 一 ， 束 是 当 你 正在 做 别 的 事情 时 ， 你 的 大 脑 可 以 在 
潜意识 中 帮 你 完成 一 些 工 作 。 享 利 . 庞 加 菜 (Henri Poincaré) 是 19 世 纪 
一 位 杰出 的 数学 家 ， 他 曾经 描述 自己 如 何 最 终 解 决 了 一 个 数学 难题 。 
当时 他 已 经 紧张 地 工作 了 好 几 个 星期 ， 但 仍然 一 无 所 获 。 于 是 他 度假 
去 了 。 当 他 在 法 国 南 部 踏 上 一 辆 公共 汽车 时 ， 问 题 的 解决 方案 突然 就 
出 现在 了 他 的 脑海 中 ， 他 的 大 脑 中 有 一 部 分 区 域 在 他 享受 假期 的 时 候 
仍然 在 处 理 这 个 问题 。 他 知道 自己 找到 了 证 明 问 题 的 正确 方法 ， 并 在 
返回 巴黎 时 完成 了 它 。 他 之 前 对 这 个 问题 的 深入 人 研究 已 经 使 他 的 大 脑 


做 好 了 充分 的 准备 ， 这 样 他 的 潜意识 就 可 以 在 他 放松 的 时 候 继续 处 理 
这 个 问题 。 这 两 个 阶段 对 创造 力 而 言 同等 重要 。 

令 人 惊讶 的 是 ， 即 使 在 睡觉 的 时 候 ， 你 的 大 脑 也 会 在 你 毫 不 知情 
的 情况 下 解决 问题 。 但 是 ， 只 有 在 你 入 睡 之 前 仍 专注 于 解决 问题 的 前 
提 下 ， 大 脑 才能 做 到 这 一 点 。 于 是 你 早上 醒 来 的 时 候 ， 一 种 新 的 见解 
就 会 从 脑海 中 跳出 来 ， 帮 助 你 解决 问题 (尽管 这 种 情况 不 会 经 常 发 
E) 。 在 休假 或 入 睡 前 的 高 强度 思考 ， 对 激活 你 的 大 脑 非常 重要 ， 否 
则 ， 它 就 有 可 能 去 处 理 其 他 问题 了 。 这 种 方式 并 不 限于 数学 或 科学 问 
题 ， 如 果 你 最 近 在 思考 一 个 社交 间 题 ， 你 的 大 脑 就 会 像 解决 数学 和 科 
学 问题 一 样 努 力 解决 它 。 

“学 会 如 何 学 习 " 最 令 我 们 感到 欣慰 的 成 果 之 一 ， 就 是 收 到 了 来 自 
快乐 学 习 者 的 信件 ， 感 谢 我 们 为 他 们 提供 了 最 好 的 课程 ， 或 者 这 门 课 
如 何 影响 了 他 们 的 职业 选择 。( 固 教师 也 写 信 给 我 们 ， 提 到 他 们 正在 
将 "学 会 如 何 学 习 * 这 门 课 的 经 验 融 入 自己 的 课堂 中 。 

我 们 最 初 的 目标 是 教授 高 中 生 和 大 学 生 “ 学 会 如 何 学 习 ”， 但 后 来 
发 现 这 些 人 的 比例 不 到 学 习 这 门 课程 总 人 数 的 196。 因 为 学 校 一 直 以 来 
都 被 要 求 以 “共同 核心 ”(Common Core) 测试 为 目标 进行 教学 ， 他 们 
没 时 间 教 学 生 如 何 学 习 ， 而 后 者 往往 对 学 生 们 的 学 业 更 有 帮助 。 要 求 
各 个 学 区 都 采用 "学 会 如 何 学 习 "的 教学 模式 将 是 一 个 艰难 的 任务 ， 毕 
竞 学 校 的 运营 预算 是 有 限 的 。 学 区 也 不 打算 修改 他 们 的 课程 ， 把 "学 会 
如 何 学 习 ” 纳 入 大 规模 的 教学 。 任 何 大 范围 的 尝试 都 涉及 课程 表 的 调 
整 、 教 师 再 增 训 和 新 教材 的 开发 ， 这 个 过 程 相当 的 费时 费力 。 但 不 论 
如 何 ， 我 们 都 需要 12 岁 的 孩子 在 进入 高 中 前 接触 到 这 项 课程 。 芭 芭 拉 
和 我 针对 这 群 读者 写 了 一 本 书 ， 希 望 这 些 年 轻 的 学 生 在 进入 会 频繁 通 
到 数学 难题 的 中 学 时 期 之 前 ， 就 能 接触 到 我 们 的 技巧 。 

与 学 校 课程 “要 么 太 多 ， 要 么 没有 ”的 学 习 模 式 不 同 ， 莫 课 更 像 是 
你 随时 可 以 挑选 和 阅读 的 书 ， 学 习 者 们 更 倾向 于 “放养 式 ” 的 学 习 方 
法 ， 有 针对 性 地 选择 符合 他 们 迫切 需求 的 课程 。 摹 课 原本 被 认为 是 传 


统 教室 的 奉 代 品 ， 现 在 它 在 教育 领域 占据 了 一 个 互补 性 的 位 置 ， 这 与 
其 他 教学 场所 不 同 。 它 以 独特 的 方式 满足 了 学 习 者 的 需求 ， 而 传统 教 
育 方式 往往 做 不 到 这 一 点 。 例 如 ， 莫 课 已 经 被 翻转 课 笛 (flipped 
classes) 这 一 教育 方式 所 采纳 ， 学 生 们 可 以 在 方便 的 课余 时 间 观 看 选 
定 的 讲座 ， 老 师 则 会 针对 课程 内 容 在 课堂 上 引导 学 生 们 进行 讨论 。 我 
们 的 教育 体系 是 为 工业 时 代 设 计 的 ， 学 校 所 传授 的 知识 曾经 是 你 今后 
维持 工作 ， 以 及 作为 一 名 有 生产 力 的 公民 所 需 的 基础 知识 。 然 而 现 
在 ， 学 生 刚 一 毕业 ， 学 校 传授 的 那些 知识 就 已 经 过 时 了 。 莫 课 直 接 进 
入 家 庭 ， 是 教育 系统 的 最 后 一 坏 。 对 Coursera 进 行 的 人 口 统计 表明 ， 
大 多 数 在 线 学 习 者 的 年 龄 都 在 25~35 岁 之 间 ， 他 们 当中 超过 一 半 的 人 接 
受过 大 学 教育 。 这 些 都 是 在 工作 中 需要 新 技能 ， 并 在 网 上 进行 目 学 的 
年 轻 人 。 我 们 的 教育 系统 需要 更 多 根本 性 的 改变 ， 让 我 们 的 大 脑 能 够 
适应 在 经 济 信息 领域 中 快速 扩张 的 网 位 技能 需求 。 例 如 ， 通 过 互联 网 
收集 信息 需要 一 些 判 断 力 和 基本 技能 ， 即 能 够 制定 合适 的 搜索 条 件 ， 
并 甄别 错误 的 搜索 路 径 。 可 惜 的 是 ， 学 校 似乎 没有 时 间 教 授 基 本 的 互 
联网 操作 技能 ， 即 使 学 生 们 能 够 从 学 习 如 何 积极 寻求 信息 ， 而 不 是 被 
动 接受 课程 中 受益 。 

优 达 学 城 (Udacity) 是 由 因 目 动 委 驶 汽车 而 名 声 大 噪 的 塞 巴 斯 带 
安 . 特 隆 创 立 的 另 一 家 制作 莫 课 的 教育 机 构 。 除 了 提供 免费 课程 外 ， 优 
达 学 城 还 与 硕 望 提升 自身 员工 技能 的 公司 开展 了 合作 。 优 达 学 城 打 造 
了 符合 公司 需求 的 莫 课 ， 员 工 们 也 有 动力 去 学 习 这 些 课 程 。 对 于 雇 
主 、 员 工 和 优 达 学 城 来 说 ， 这 是 共 恬 。 优 达 学 城 也 提供 了 一 系列 专项 
课程 ， 比 如 自动 区 驶 汽车 技术 (费用 为 800 美 元 ， 学 员 学 成 之 后 可 以 
获得 纳米 学 位 (nanodegree) ， 如 果 在 6 个 月 内 找 不 到 工作 还 能 收 到 全 
额 退 款 。( 因 辐 传 统 学 校 之 外 的 教育 机 构 发 展 迅 速 ， 幕 课 可 以 为 终身 学 
习 提 供 各 种 解决 方案 。 

我 们 后 续 的 一 门 葡 课 “ 思 维 转换 ， 突 破 学 习 障碍 并 发 所 你 的 潜 
BE" (MindShift: Break through Obstacles to Learning and Discover Your 
Hidden Potential, https://www.coursera.org/learn/ mindshift/) 已 经 于 


2017 年 4 月 推出 。 该 课程 是 与 芭 芭 拉 : 奥 克利 的 一 本 新 书 同步 推出 的 ， 
加 基于 他 人 的 亲身 经 历 ， 并 使 用 早期 的 案例 (包括 我 的 ) KAH, 4 
你 想 以 某 种 方式 改变 你 的 生活 时 可 能 会 面 对 的 各 种 难题 。 殉 我 而 言 ， 
我 是 从 物理 学 转 到 了 神经 生物 学 领域 ， 但 在 另 一 个 案例 中 ， 一 位 成 功 
的 音乐 会 独奏 家 放弃 了 他 的 职业 生涯 ， 转 而 成 为 一 名 医生 。 转 行 这 一 
现象 已 经 变 得 越 来 越 普 裔 ,， “思维 转换 ”的 课程 设计 由 在 降低 该 过 程 的 
难度 。 该 门 课程 现在 在 世界 上 最 受 欢 迎 的 莫 课 中 排名 第 二 。 

男 一 种 成 为 更 好 的 学 习 者 的 方式 ， 是 利用 交互 式 电脑 游戏 。 类 似 
Lumosity 这 样 的 公司 提供 了 在 线 游 戏 ， 声 称 可 以 提高 玩家 的 记忆 力 和 
注意 力 。 问 题 是 ， 文 持 这 种 说 法 的 研究 往往 风 毛 记 朋 ， 或 者 质量 不 
高 ， 竺 别 征 在 将 培训 转移 到 实际 任务 方面 。 但 是 ， 这 一 切 都 还 处 于 后 
期 阶段 ， 更 出 色 的 研究 正 开始 帮助 我 们 辨别 有 效 和 无 效 的 方法 。 绪 采 
往往 令 人 大 开眼 界 ， 甚 至 有 悖 直觉 。 


训练 你 的 大 脑 


在 广泛 改善 认 知 功能 方面 最 有 效 的 视频 游戏 是 那些 追逐 僵尸 ， 在 
战争 中 杀 死 坏人 ， 以 及 极速 赛车 之 类 的 游戏 。 日 内 瓦 大 学 的 达 天 妮 : 区 
4f Fi] 1 (Daphne Bavelier) #7, m (RFW: KARTY (Medal 
of Honor: Allied Assault) 等 第 一 人 称 视角 的 射击 游戏 改善 了 人 们 的 感 
知 、 注 意 力 和 认 知 能 力 ， 尤 其 是 视觉 、 多 任务 处 理 和 任务 转换 ， 并 且 
引导 他 们 更 快 地 制定 出 决策 。 包 她 总 结 说 ， 玩 这 类 射击 游戏 可 能 会 让 
年 长 者 的 大 脑 反 应 与 年 轻 人 的 一 样 快 (对 于 任何 上 了 年 纪 的 人 来 说 都 
是 好 消息 ) 。 但 是 一 些 射击 游戏 也 可 能 会 有 损 长 期 记忆 。( 岂 每 款 游戏 
都 有 不 同 的 优点 和 缺点 ， 需 要 单独 进行 分 析 。 

加 州 大 学 旧金山 分 校 的 亚当 . 格 萨 雷 (Adam Gazzaley) 定制 了 一 
款 叫 作 NeuroRacer 的 三 维 视频 游戏 ， 能 够 提高 你 的 多 任务 处 理 能 


有 研究 表明 ， 大 脑 中 神经 调节 剂 风 活动 对 于 注意 力 、 学 习 和 记忆 有 着 
重要 的 作用 。 人 在 NeuroRacer 中 ， 玩 家 沿 着 蚁 贱 崎 赋 的 道路 驾驶 汽 
车 ， 同 时 还 要 留意 随机 弹出 的 各 种 标志 。 这 束 要 求 玩家 调用 多 种 认 知 
技能 ， 例 如 注意 力 和 任务 切换 能 力 ， 进 行 多 任务 处 理 。 在 测试 
NeuroRacer 时 ， 亚 当 和 同事 们 发 现 ， 在 经 过 训练 以 后 ， 被 试 者 的 这 些 
技能 得 到 了 显著 提高 ， 并 在 工作 记忆 和 持续 关注 方面 达到 了 较 高 的 水 
平 ， 然 而 这 些 并 不 属于 训练 的 一 部 分 。 此外， 他 们 的 表现 还 优 于 未 经 
训练 的 20 多 年 轻 人 ， 并 且 在 中 止 训 练 的 6 个 月 后 ， 这 些 能 力 依然 没有 消 
退 。(NeuroRacer 目 前 正在 被 用 于 临床 试验 ， 为 患 有 注意 力 缺 陷 和 记 
忆 障 碍 的 患者 提供 治疗 。 

1997 年 ， 尚 在 罗 格 斯 的 保 拉 : 塔 拉 尔 和 尚 在 加 州 大 学 旧金山 分 校 的 
迈克 尔 : 梅 泽 尼 奇 (Michael Merzenich) 联合 创建 了 一 家 名 为 “Scientic 
Learning” 的 公司 ， 为 患 有 语言 和 陪读 障碍 (如 失 读 症 ) 的 儿童 提供 帮 
助 。 语 音 理解 取决 于 能 否 捕捉 到 快速 的 声学 转换 。 例 如 ， 听 
到 “ba”、`“ga” 或 “da” 之 间 的 差异 取决 于 音节 开头 的 宫 秒 范围 内 的 时 间 差 
异 。 无 法 检测 到 这 些 时 间 差 异 的 孩子 在 学 习 中 会 处 于 劣势 ， 因 为 他 们 
无 法 分 辨 包含 这 些 声 首 的 词汇 。 要 学 习 阅 读 ， 孩 子 们 必须 能 够 识别 和 
区 分 单词 中 字母 代表 的 简短 声 首 。 塔 拉 尔 和 梅 泽 尼 奇 开发 了 被 称 
为 “Fast ForWord” 的 一 系列 计算 机 游戏 ， 它 首先 通过 在 首 节 、 单 词 和 句 
子 中 奔 大 声学 时 差 米 提高 孩子 的 听觉 判断 、 语 言 和 阅读 理解 能 力 。 随 
着 孩子 们 在 各 种 语言 和 阅读 水 平 上 的 提高 ， 这 种 时 间 差 异 会 被 缩短 。 
Fast ForWord 在 教育 游戏 的 同类 产品 中 得 到 了 很 高 的 评价 ， 有 6000 
所 学 校 和 超过 250 万 名 儿童 使 用 过 该 系列 。 它 们 也 在 超过 55 个 国家 被 用 
来 帮助 孩子 学 习 喘 语 这 门 第 二 语言 。 梅 泽 尼 奇 后 来 又 开发 了 BrainHQ 

(https://www.brainhg.com) ， 这 是 一 款 基于 相似 科学 原理 的 游戏 ， 旨 
在 减缓 老年 人 的 认 知 腾 退 。 

你 还 可 以 通过 锻炼 大 脑 来 提高 运动 技能 。 加 州 大 学 河 滨 分 校 的 亚 

伦 : 赛 次 (Aaron Seitz) 开发 了 一 个 能 够 改善 视觉 感知 和 反应 时 间 的 计 


算 机 程序 。 在 使 用 这 个 程序 后 ， 棒 球 队 队 员 普 遍 反映 视力 变 得 更 好 
了 ， 被 三 振 出 局 的 次 数 变 少 了 ， 还 创造 出 了 更 多 跑 人 又， 并 在 赛季 的 54 
场 比赛 中 多 赢得 了 4~5 场 比赛 。 岂 赛 效 开发 了 一 款 名 为 “UltimEyes” 的 
廉价 应 用 程序 ， 将 他 的 研究 成 果 对 公众 开放 。 不 过 联邦 贸易 委员 会 

经 停止 了 这 款 游戏 的 传播 ， 直 到 更 多 的 研究 能 进一步 证 实 他 的 说 法 。 
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到 其 他 认 知 技能 上 。 但 在 玩 许多 其 他 特定 领域 游戏 ， 如 记忆 游戏 时 ， 
这 种 转移 并 不 存在 。 里 然 我 们 设计 的 交互 式 视频 游戏 正在 变 得 越 来 越 
好 ， 能 够 改善 我 们 的 大 脑 功能 ， 增 加 游戏 的 趣味 性 ， 还 能 制 成 应 用 程 
序 ， 但 这 种 转移 发 生 的 条 件 仍 然 有 待 研究。 全球 范围 内 认 知 改善 的 潜 
力 不 可 估量 。 
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在 2015 年 NIPS 大 会 开幕 式 上 ， 我 穿着 全 美 运动 汽车 竞赛 协会 
(NASCAR) 风格 的 夹克 欢迎 与 会 者 ， 上 面 贴 着 我 们 所 有 42 个 赞助 商 
的 商标 ( 见 图 12-9) 。 在 巴塞 罗 那 举行 的 2016 年 NIPS 大 会 上 上， 赞助 商 
有 65 家 ,一 件 夹 元 上 已 经 放 不 下 了 。 而 到 了 2017 年 ， 多 达 93 家 赞助 两 
支持 了 在 长 滩 举 行 的 NIPS 大 会 。 这 种 爆炸 性 的 增长 迟早 会 结束 ， 但 它 
在 社会 上 的 回 啊 可 能 会 持续 数 十 年 。 这 些 赞 助 公司 派 遗 招聘 人 员 参 加 
NIPS 大 会 ， 渴 望 聘用 市 场 上 缺乏 的 优秀 研究 人 员 。 我 的 许多 同事 已 经 
加 入 了 人 谷歌、 微软、 亚马逊 、 平 果 、Facebook、 百 度 和 其 他 许多 初创 
公司 。 它 们 还 从 大 学 里 抢 地 人 才 。 据 塞 巴 斯 蒂 安 . 特 隆 估计 ， 当 一 家 像 
Otto 或 Cruise 这 样 的 自动 芍 驶 初创 公司 被 一 家 大 公司 收购 时 ， 相 当 于 在 
每 个 机 器 学 习 专家 身上 都 花费 了 1000 万 美元 。 


2013 年 ， 人 谷歌 收购 了 态 弗 里 :六 顿 的 公司 DNNresearch ， 当 时 这 家 
公司 由 他 和 他 在 多 伦 多 大 学 的 两 名 研究 生 在 运营 着 。 杰 弗 里 . 辛 顿 于 是 
成 了 合 歌 的 员工 。 他 现在 可 以 获得 比 他 曾 在 多 伦 多 慌 慢 过 的 更 庞大 的 
计算 能 力 ， 但 更 重要 的 是 谷歌 所 拥有 的 海量 数据 。 谷 歌 大 脑 (Google 
Brain) RR JEE (Jeff Dean) 领导 的 由 才华 横 深 的 工程 师 和 科学 家 
组 成 的 杰出 人 才 团 队 。 迪 恩 设 计 了 谷歌 所 有 的 服务 都 依赖 的 
MapReduce 文 件 系统 。 当 你 让 谷歌 翻译 一 段 文字 时 ， 它 现在 所 使 用 的 
就 是 迪 恩 的 谷歌 大 脑 团 队 设计 的 深度 学 习 技 术 。 当 你 搜索 一 个 关键 词 
上 时， 深度 学 习 会 对 搜索 结果 进行 排名 。 当 你 与 谷歌 助手 (Google 
Assistant) 进行 交谈 时 ， 它 会 使 用 深度 学 习 来 识别 你 的 话 。 随 着 与 你 
的 对 话 进行 得 更 加 流畅 ， 它 将 使 用 深度 学 习 为 你 提供 更 好 的 服务 。 合 
歌 已 经 在 全 力 地 钻研 深度 学 习 。 其 他 高 科技 行业 也 一 样 ， 但 这 只 是 一 
个 开始 。 
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图 12-9 我 在 2015 年 蒙特 利 尔 NIPS 大 会 上 的 穿着 ， 一 件 * 全 美 运动 汽车 竞赛 协会 "风格 的 夹克 。 
会 议 的 移 助 商 五 花 八 门 ， 从 顶级 互联 网 公司 到 金融 和 媒体 公司 ， 它 们 都 在 深度 学 习 领 域 进 行 
了 投资 。 图 片 来 源 : NIPS 基 金 会 。 

美国 在 人 工 智 能 方面 正在 失去 领先 地 位 ， 在 你 阅读 这 本 书 的 时 
候 ， 其 他 国家 可 能 已 经 超越 了 我 们 。 多 伦 多 矢量 研究 所 (The Vector 
Institute in Toronto) 于 2017 年 3 月 启动 ， 加 拿 大 政府 和 安大略 省 政府 ， 
多 伦 多 大 学 以 及 私营 企业 对 其 提供 了 1.75 亿 加 元 的 资金 支持 。 全 矢量 
研究 所 的 目标 是 成 为 世界 领先 的 人 工 智能 研究 中 心 ， 培 养 最 多 的 机 器 
学 习 领 域 的 博士 和 硕士 毕业 生 ， 并 成 为 推动 多 伦 多 市 ， 安 大 上 略 省 力 至 
整个 加 拿 大 经 济 发 展 的 AI 超 级 集群 的 引 警 。 但 加 拿 大 将 面临 来 自 中 国 
的 激烈 竞争 ， 中 国正 在 培训 数 千 名 机 器 学 习 领 域 的 工程 师 ， 神 经 形态 
计算 是 其 “大 脑 项 目 * 的 两 中 之 一 。 受 2017 年 AlphaGo 击 败 柯 党 事件 的 影 
响 一 一 类 似 1957 年 苏联 制造 的 人 造 卫 星 对 美国 的 影响 ， 中 国 已 经 启动 
了 一 项 狐 的 价值 数 十 亿美 元 的 人 工 状 能 计划 ， 包 括 雄 心动 过 的 项 目 、 
初创 企业 和 学 术 研 究 ， 目 的 是 到 2030 年 在 世界 范围 内 占据 重要 地 位 。 
Om T EU i ng 医疗 和 个 人 数据 ， 而 且 普 通 民 众 对 隐私 的 关注 相 
比 西方 民主 国家 要 少 得 多 ， 中 国 可 以 超越 其 他 那些 将 私人 数据 保留 在 
私有 孤岛 中 的 国家 。 中 国 还 将 农业 和 制造 业 作为 数据 收集 的 对 象 。 谁 
拥有 最 多 的 数据 ， 谁 陇 是 顾家 ， 中 国 在 数据 上 的 资本 实力 相当 雄厚 。 


中 国 也 希望 "将 人 工 智能 集成 到 导弹 中 ， 甚 至 预测 犯罪 行为 ”。( 转 
而 与 此 同时 ， 美 国 的 政治 领导 人 正 计划 削 减 科学 和 技术 资金 。 在 20 世 
纪 60 年 代 ， 美 国 在 太空 竞赛 中 投入 了 1000 亿 美元 (该 数字 针对 通货 膨 
胀 进行 了 调整 ) ， 伟 ) 创 造 了 卫星 产业 ， 使 美国 在 微 电 子 和 材料 领域 处 
于 领先 地 位 ， 并 在 科学 和 技术 的 国家 实力 上 做 出 了 政治 宣言 。 当 时 的 
投资 至 今 仍 在 发 挥 功 效 。 微 电子 和 先进 材料 是 美国 仍然 具有 竞争 力 的 
少数 几 个 行业 之 一 。 中 国 在 AI 竞争 方面 的 大 量 投资 ， 可 能 会 让 它 在 21 
世纪 的 几 个 关键 行业 中 处 于 领先 地 位 。 这 一 -形势 对 我 们 来 说 是 一 种 警 
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人 工 知 能 正在 加 速 “ 无 形 的 ”信息 经 济 。 经 济 产 出 的 衡量 标准 是 国 
内 生产 总 值 (GDP) ， 即 所 有 商品 和 服务 的 总 价值 。 这 项 指标 是 为 工 
业经 济 设计 的 ， 其 主要 产品 和 服务 是 有 形 的 ， 例 如 食品 、 汽 车 和 医疗 
保健 。 但 是 ， 信 息 公 司 中 越 来 越 多 的 价值 并 不 是 以 这 些 实体 产品 进行 
衡量 的 。 例 如 ， 微 软 拥有 的 建筑 和 设备 价值 为 10 亿 美元 ， 仅 占 其 市 场 
价值 的 1%。( 电 其 余 价值 则 是 基于 软件 和 微软 程序 员 的 专业 知识 。 你 愿 
意 为 在 智能 手机 上 下 载 的 信息 出 个 什么 价钱 ? 我 们 需要 一 种 考虑 到 各 
种 形式 信息 价值 的 新 指标 ， 即 国内 无 形 资 产 总 值 (Gross Domestic 
Intangibles， 简 称 GDI) ， 以 强化 GDP 来 衡量 生产 率 。[ 人 局 


目前 人 工 乔 能 的 应 用 还 是 基于 30 年 前 完成 的 基础 研究 。30 年 后 的 
应 用 将 取决 于 当前 正在 进行 的 基础 人 研究， 但 最 优秀 和 最 聪明 的 研究 人 
员 正 在 为 工业 界 工 作 ， 并 专注 于 近期 的 产品 和 服务 。 平 衡 这 一 人 才 流 
动 趋势 的 是 ， 最 聪明 最 优质 的 学 生 现在 都 进入 了 机 絮 学 习 领 域 。 而 在 
上 一 代 人 中 ， 类 似 的 人 才 会 进入 投资 银行 业 。 

在 思考 人 工 智 能 的 未 来 时 ， 我 们 需要 保持 目光 长 远 ， 因 为 我 们 远 
没有 具备 达到 人 类 智能 水 平 所 需 的 计算 能 力 。 现 在 ， 深 度 学 习 网 络 拥 
有 数 百 万 个 单元 和 数 十 亿 个 权重 。 这 比 人 类 大 脑 皮 层 中 的 神经 元 和 突 
触 的 数量 还 要 少 1 万 倍 一 一 人 类 1 立方 坚 米 的 皮层 组 织 就 包含 了 10 亿 个 
突 触 。 如 果 世 界 上 的 所 有 传 感 占 部 连接 到 互联 网 ， 并 通过 深度 学 习 网 
络 相 互 连 接 ， 那 么 有 一 天 ， 互 联网 可 能 会 醒 来 并 主动 说 出 : 


“Hello, world”? (PE, EA! ) @) 


1. Kaggle 网 站 拥有 数 百 万 名 数据 科学 家 ， 他 们 互相 竞争 ， 和 凭借 最 佳 表 现 赢得 奖项 。 
Cade Metz, “Uncle Sam Wants Your Deep Neural Networks,” New York Times,June 22, 2017, 
https://www.nytimes.com/2017/06/22/technology/homelandsecurity-artificial-intelligence- 


neural-network.html. 


2. 我 的 演讲 视频 “Cognitive Computing: Past and Present” 可 以 在 网 上 找到 : 
https://www. youtube.com/watch?v=OBDMQuphd-Q ° 
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参阅 Jen Clark, *The Countdown to IBM's IoT, Munich," IBM Internet of Things(blog), 
posted February 8, 2017. https://www.ibm.com/blogs/internet-of-things/countdown-ibms-iot- 
hq-munich/ ° 

BRAIN 的 报告 提出 了 建议 ， 并 为 创新 型 技术 确定 了 优先 事项 ， 以 协助 推动 我 们 对 
神经 回路 和 行为 的 理解 : BRAIN Working Group, BRAIN 2025: A Scientific Vision, Report 
to the Advisory Committee to the Director, NIH (Bethesda, MD:National Institutes of Health, 
June 5, 2014), https://www.braininitiative.nih.gov/pdf/BRAIN2025 508C.pdf ° 
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参阅 K. S. Kosik, T. J. Sejnowski, M. E. Raichle, A. Ciechanover, and D. A.Baltimore, 
“A Path toward Understanding Neurodegeneration," Science353, no.6302 (2016): 872-873 ° 


在 2002 年 的 科幻 电影 《少数 派 报 告 》 中 ， 由 汤姆 : 克 和 鲁 斯 饰演 的 男 主 角 通 过 非法 的 
移植 避免 了 政府 的 追踪 。 

参阅 Nandan Nilekani and Viral Shah, Rebooting India: Realizing a Billion Aspirations. 
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2015 年 2 月 2 日 


亲爱 的 教授 们 ， 我 参加 了 期 末 考 试 ， 考 得 很 好 。 我 在 读 五 年 级 。 我 妈妈 正在 浏览 


Coursera 上 的 课程 ， 我 县 求 她 让 我 加 入 。 她 为 我 选择 了 这 门 课程 ， 我 对 此 很 感激 。 我 从 来 


不 知道 教授 们 如 此 机 智 ， 整 个 课程 都 很 有 趣 。 当 然 ， 我 必须 借助 词典 来 查询 课程 中 使 用 
的 科学 术语 ， 但 这 是 一 个 很 好 的 学 习 体验 。 通 过 使 用 呼吸 法 ， 我 学 会 了 克服 进入 考场 时 
胃 部 不 适 。 真 的 很 管用 ! 


和 


en 


1. 


3. 


作法 。 我 的 妈妈 在 整个 过 程 中 都 在 扮演 反面 角色 。 她 的 大 脑 里 塞 满 了 视频 讲座 
着 狂热 地 看 视频 ) ， 没 有 进行 适度 的 休息 ， 甚 至 在 我 参加 期 末 考 试 的 前 一 天 晚上 都 没有 
睡觉 。 虽 然 她 比 我 聪明 ， 但 她 做 得 不 好 。 我 很 惊讶 ， 简 单 的 技巧 就 能 帮助 我 得 到 更 高 的 
分 数 ， 而 且 没 有 任何 考试 的 压力 。 


现在 我 已 经 学 会 了 将 考试 看 作 了 解 我 学 到 并 记 住 了 多 少 东西 的 工具 。 我 喜欢 番茄 工 
(Ht FR 


He 


非常 感谢 ， 教 授 们 。 我 希望 你 们 能 推出 本 课程 的 第 二 部 分 。 
周一 快乐 。 
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算法 驱动 


2016 年 6 月 ， 在 新 加 坡 南洋 理工 大 学 举办 的 21 世 纪 科 学 挑战 大 会 
上 ， 我 参与 了 为 期 一 周 的 讨论 。 讨 论 的 话题 范围 很 广 ， 从 宇宙 论 、 进 
化 论 到 科学 政策 。(33Wi AMAIE (W. Brian Arthur). 是 一 个 对 技术 
很 感 兴趣 的 经 济 学 家 ，( 电 他 指出 ， 在 过 去 ， 技 术 是 由 物理 定律 驱动 
的 :20 世纪 ， 我 们 试图 用 微分 方程 和 连续 变量 的 数学 原理 去 理解 物理 
世界 ， 这 些 变量 在 时 间 和 空间 上 平滑 地 变化 。 相 比 之 下 ， 今 天 的 技术 
是 由 算法 驱动 的 ， 在 21 世 纪 ， 我 们 试图 通过 离散 数学 和 算法 来 理解 计 
算 机 科学 和 生物 学 复杂 的 本 质 。 阿 琴 是 新 墨西哥 州 圣 塔 菲 研究 所 (the 
Santa Fe Institute) 的 教员 ， 该 机 构 是 20 世 纪 涌 现 出 的 许多 研究 复杂 系 
统 的 中 心 之 一 。( 周 


算法 无 处 不 在 。 我 们 每 次 使 用 谷歌 搜索 时 都 使 用 了 算法 。( 电 每 次 
在 Facebook 上 阅读 的 新 闻 推 送 也 都 经 过 了 算法 的 自动 入 选 ， 这 些 新 的 
推送 参考 了 我 们 的 阅读 历史 记录 ， 会 影响 我 们 情绪 的 反应 。( 早 随 着 经 
过 深度 学 习 训练 的 语音 识别 和 自然 语言 能 力 被 嵌入 我 们 的 手机 中 ， 算 
法 正在 以 越 来 越 快 的 速度 侵入 我 们 的 生活 。 

算法 是 在 执行 计算 或 解决 问题 时 ， 遵 循 一 组 包含 离散 步骤 或 规则 
的 过 程 。“ 算 法 ”(algorithm) 这 个 词 来 源 于 拉丁 文 calgorismus”， 以 9 世 
纪 的 波斯 数学 家 al-Khwarizmi 的 名 字 命 名 ， 在 17 世 纪 受 到 希腊 语 
中 “arithmos”( 意 为 “数字 ”) 这 个 词 的 影响 ， 最 终 由 “algorism>” 转 变 
为 algorithm”。 算 法 虽然 有 着 古老 的 起 源 ， 但 其 地 位 直到 最 近 才 通过 
数字 计算 机 提升 到 了 科学 和 工程 领域 的 前 沿 。 


用 算法 把 复杂 问题 商 音 化 


20 世 纪 80 年 代 ， 解 决 复杂 度 问 题 的 新 方法 开始 萌芽 ， 其 目标 是 寻 
找 新 的 途径 来 理解 在 生物 体 中 发 现 的 系统 ， 这 些 系统 比 物理 和 化 学 系 
统 还 要 复杂 。 与 遵循 艾 院 克 . 牛 顿 运动 定 律 的 火箭 运动 的 简单 性 不 同 ， 
并 没有 一 种 简易 的 方式 来 描述 树木 如 何 生 长 。 于 是 ， 计 算 机 算法 被 一 
大 群 传奇 的 先驱 用 来 探索 这 些 古 老 的 生命 体 问题 。 

ANF DE (Stuart Kauffman) 是 一 名 医生 ， 对 基因 网 络 很 
感 兴趣 。 基 因 网 络 中 被 称 为 “转录 因子 ”的 蛋 日 质 能 定位 基因 ， 并 影响 
它们 是 否 被 激活 。( 电 他 的 模型 是 自 组 织 的 ， 基 于 二 元 单元 网 络 ， 这 个 
网 络 和 神经 网 络 在 某 些 方面 很 相似 ， 但 速度 要 慢 得 多 。 殉 里 斯 托 弗 : 兰 
顿 (Christopher Langton) 在 20 世 纪 80 年 代 后 期 创造 了 “人 造 生命 ”这 个 
术语 ， 售 由 此 引发 了 一 系列 的 尝试 ， 旨 在 理解 活 细胞 的 复杂 性 和 复杂 
行为 形成 发 展 的 原理 。 尽 管 我 们 在 细胞 生物 学 和 分 子 遗 传 学 方面 所 取 
得 的 进展 ， 已 经 能 够 揭示 细胞 内 分 子 机 制 高 度 演化 的 复杂 性 ， 但 生命 
的 奥秘 对 我 们 来 说 仍然 是 个 不 解 之 谜 。 

算法 为 创造 出 比 现 有 世界 更 为 复杂 的 世界 提供 了 新 的 机 会 。 事 实 
上 ，20 世 纪 发 现 的 算法 确实 让 我 们 重新 思考 了 复杂 性 的 本 质 。20 世 纪 
80 年 代 的 神经 网 络 半 命 ， 就 是 由 类 似 的 理解 大 脑 复 杂 性 的 党 试 所 驱动 
的 。 虽 然 我 们 的 神经 网 络 模型 比 大 脑 的 神经 回路 简单 得 多 ， 但 我 们 开 
发 的 学 习 算 法 使 得 探索 一 般 原 理 成 为 可 能 ， 例 如 信息 在 大 量 神经 元 中 
的 分 布 原理 。 不 过 ， 网 络 功 能 的 复杂 性 是 如 何 由 相对 简单 的 学 习 规则 
产生 的 呢 ? 是 否 存在 一 种 更 简单 的 系统 ， 既 体现 了 复杂 性 ， 又 更 易于 
分 析 呢 ? 


理解 、 分 析 复 杂 系 统 


| 


另 一 个 以 科学 的 严肃 态度 对 待 复杂 性 的 传奇 人 物 是 斯 蒂 芬 ' 沃 尔 夫 
勒 姆 〈 见 图 13-1) 。 他 年 轻 时 是 个 神童 ，20 安 束 从 加 州 理 工学 院 获 得 
了 物理 学 博士 学 位 ， 创 造 了 该 学 位 最 年 轻 毕 业 生 的 纪录 ， 并 于 1986 年 
在 伊利 诡 伊 大 学 成 立 了 复杂 系统 研究 中 心 。 沃 尔 夫 勒 姆 认为 神经 网 络 
WTR, TeRER RATA A, JPARTAOERAHHE E SUL 。 


细胞 自动 机 通常 只 有 少数 几 个 随时 间 变 化 的 离散 值 ， 这 取决 于 其 
他 细胞 的 状态 。 最 简单 的 一 种 细胞 自动 机 ， 是 一 组 一 维 的 细胞 阵列 ， 
每 个 细胞 的 值 为 0 或 1 (见方 框 13.1) 。“ 和 生命 的 游戏 ” (Game of Life) 
也 许 是 最 著名 的 细胞 自动 机 了 ， 它 是 由 普林斯顿 大 学 的 数学 教授 约翰 
康 威 (John Conway) 在 1968 年 发 明 的 ， 并 由 马丁 :加 德 纳 (Martin 
Gardner) 通过 他 在 杂志 《科学 美国 人 》 (Scientific American) 的 “ 数 
学 游戏 "专栏 中 推广 开 来 〈 见 图 13-2) 。 整 个 空间 是 一 个 二 维 的 细胞 阵 
列 ， 细 胞 只 有 “ 开 ” 或 “ 关 ” 的 状态 ， 对 规则 的 更 新 仅 取 决 于 4 个 最 近 的 相 
邻 细胞 。 在 每 个 时 间 步 骤 中 ， 所 有 细胞 的 状态 都 会 更 新 。 阵 列 中 会 生 
成 复杂 的 模式 ， 其 中 一 些 模式 还 有 目 己 的 名 字 ， 例 如 “滑翔 机 ”， 它 会 
横 跨 阵列 并 与 其 他 模式 发 生 人 碰撞 。 初 始 条 件 对 于 找到 显示 复杂 模式 的 
配置 至 天 重要 。 
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图 13-1 斯 蒂 芬 . 沃 尔 夫 勒 姆 在 他 位 于 马 陕 诸 塞 州 康 科 德 的 家 中 ， 站 在 由 算法 生成 的 地 板 上 。 沃 
尔 夫 勒 姆 是 复杂 性 理论 的 先驱 ， 他 曾经 提出 ， 即 使 是 简单 的 程序 也 会 生成 现实 级 别 的 复杂 
性 。 图 片 来 源 : 斯 蒂 芬 . 沃 尔 夫 勒 姆 。 

生成 复杂 系统 的 规则 有 多 普遍 呢 ? 沃 尔 夫 勒 姆 想 要 了 解 可 能 导致 
复杂 行为 的 最 简单 的 细胞 自动 机 规则 ， 于 是 他 开始 从 所 有 规则 中 寻 
找 。 规 则 0~29 产 生 的 模式 总 是 会 回归 枯燥 的 行为 ， 所 有 的 细胞 都 会 以 
重复 模式 或 嵌 套 分 形 模式 结束 。 但 是 ， 规 则 30 产 生 了 展开 模式 ， 规 则 
110 不 断 变化 并 演变 出 了 复杂 模式 (见方 框 13.1) GRAE, H 
110 能 够 实现 通用 计算 ， 也 就 是 说 ， 所 有 可 能 的 细胞 自动 机 中 ， 最 简单 
的 一 些 已 经 具备 了 可 以 计算 任何 可 计算 画 数 的 图 灵机 的 能 力 ， 所 以 它 
在 原则 上 与 任何 计算 机 一 样 强大 。 
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叫 
图 13-2 生命 的 游戏 。 一 个 Gosper 滑 翔 机枪 (图 片 顶部 ) 的 快照 ， 它 发 出 一 系列 按 对 角 线 飞行 


的 滑翔 机 图 标 ， 从 “ 母 船 ” (顶部 ) 飞 往 右 下 角 。 图 片 来 自 维 基 百 科 : Gun (cellular 
automaton) ， 有 一 个 滑翔 机 枪 运动 的 GIF 动画 。 

该 发 现 的 一 个 意义 在 于 ， 我 们 在 生命 体 中 发 现 的 显著 复杂 性 ， 可 
以 通过 对 分 子 间 化 学 相互 作用 的 最 简 空间 进行 采样 ， 从 而 实现 演化 。 
而 演化 过 程 中 出 现 的 复杂 的 分 子 组 合 ， 应 该 是 能 够 预料 到 的 ， 不 应 该 
被 当 作 是 什么 奇迹 。 但 细胞 自动 机 可 能 不 是 早期 生命 的 优秀 模型 ， 究 
竞 哪些 简单 的 化 学 系统 能 够 产生 复杂 的 分 子 结构 ， 仍 然 是 一 个 县 而 未 
决 的 问题 。( 晤 也 许 只 有 特殊 的 生物 化 学 系统 才 有 这 种 特性 ， 这 有 助 于 
减少 可 能 产生 生命 的 潜在 相互 作用 种 类 的 数量 。 

生命 的 一 个 重要 特性 ， 是 细胞 的 自我 复制 能 力 。 匈 牙 利 裔 美国 数 
学 家 约翰 . 冯 -. 诺 依 曼 ， 曾 经 于 20 世 纪 40 年 代 在 普林斯顿 高 级 研究 所 使 用 
细胞 自动 机 探索 过 这 种 能 力 。 汉 : 诺 依 曼 的 工作 对 数学 的 许多 领域 都 产 
生 了 重大 影响 ， 特 别 是 他 关于 博弈 论 的 开创 性 工作 (在 第 1 章 中 提 到 
it) 。 在 寻找 可 以 完全 自我 复制 的 最 简单 的 细胞 自动 机 过 程 中 ， 汉 : 诺 
依 曼 发 现 了 一 个 复杂 的 细胞 自动 机 ， 具 有 29 个 内 部 状态 和 一 个 大 型 的 
记忆 体 ， 可 以 实现 自我 复制 。( 电 该 发 现 具 有 重大 的 生物 学 意义 ， 因 为 
能 够 自我 复制 的 细胞 中 ， 也 有 许多 内 部 状态 和 记忆 以 DNA 的 形式 存 
在 。 从 那 以 后 ， 更 简单 的 、 能 够 自我 复制 的 细胞 自动 机 陆续 被 发 现 。 


大 脑 的 逻辑 深度 


1943 年 ， 沃 伦 . 麦 卡 洛 克 (Warren McCulloch) 和 沃尔特 : 皮 次 
(Walter Pitts) 证 明了 ， 用 类 似 感 知 器 的 简单 二 进 制 靖 值 单元 构建 一 
台数 字 计 算 机 是 可 行 的 ， 只 要 将 感知 絮 按 照 计算 机 的 基本 逻辑 门 那 样 
连接 起 来 就 可 以 了 。( 包 我 们 现在 知道 ， 大 脑 有 模拟 和 数字 的 混合 特 
性 ， 它 们 的 神经 回路 通常 不 计算 逻辑 画 数 。 但 是 麦 卡 洛 殉 和 皮 深 于 
1943 年 发 表 的 论文 在 当时 受到 了 很 多 关注 ， 特 别 是 局 发 了 汉 : 诺 依 曼 对 
计算 机 的 思考 。 他 创建 了 第 一 批 有 存储 程序 的 数字 计算 机 ， 这 对 于 当 
时 的 数学 家 来 说 是 一 个 很 不 寻常 的 项 目 ， 尺 管 当 冶 : 诺 依 曼 于 1957 年 去 
世 时 ， 高 级 研究 所 并 没有 继续 他 的 研究 ， 还 销毁 了 他 的 计算 机 s 9) 

冯 : 诺 依 曼 对 大 脑 也 非常 感 兴趣 。1956 年 ， 作 为 耶鲁 大 学 举办 的 西 
利 曼 (Silliman) 讲座 嘉宾 ，( 司 他 在 讲座 中 思考 了 大 脑 如 何 用 这 种 不 
可 靠 的 组 件 进行 可 靠 操 作 的 问题 。 当 数字 计算 机 中 的 晶体 管 出 现 错误 
上 时， 整个 计算 机 可 能 就 会 月 江 ,但 是 当 大 脑 中 的 某 个 神经 元 失灵 时 ， 
大 脑 的 其 他 部 分 却 会 适应 这 种 失灵 ， 并 照常 工作 。 冯 : 详 依 曼 认 为 ， 允 
R (redundancy) 可 能 是 大 脑 能 够 稳定 运转 的 原因 ， 因 为 每 一 个 操作 
都 有 许多 神经 元 参与 。 宛 余 在 传统 上 是 基于 备份 的 ， 以 防 主 系统 出 现 
故障 。 但 我 们 现在 知道 ， 大 脑 的 元 余 是 基于 多 样 性 ， 而 不 是 重复 。 浆 : 
诡 依 曼 对 逻辑 深度 也 表示 了 担忧 : 在 累计 误差 破坏 结果 之 前 ， 大 脑 可 
以 完成 多 少 逻 辑 步 又 ? 与 可 以 完美 地 执行 每 个 逻辑 步骤 的 计算 机 不 
同 ， 大 脑 具 有 许多 噪声 源 。 一 个 大 脑 可 能 达 不 到 完美 的 程度 ， 但 是 因 
为 它 有 许多 神经 元 并 行 工作 ， 所 以 每 一 步 能 够 完成 的 计算 都 比 一 台 计 
算 机 进行 一 次 计算 所 能 完成 的 要 多 得 多 ， 因 而 逻辑 深度 也 要 浅 一 些 。 


ATA n] BEA RIE 


想象 一 下 充满 了 所 有 可 能 算法 的 空间 。 这 个 空间 中 的 每 一 点 都 是 
一 个 算法 ， 可 以 做 某 件 事 ， 而 且 其 中 一 些 算 法 是 非常 有 用 且 高 效 的。 
过 去 ， 这 些 算法 是 由 数学 家 和 计算 机 科学 家 们 手工 创造 的 ， 束 像 行 会 


里 的 工匠 那样 。 斯 带 芬 : 沃 尔 夫 勒 姆 通过 穷 举 搜索 (exhaustive search) 
对 搜寻 细胞 自动 机 算法 的 过 程 进行 了 自动 化 ， 从 最 简单 的 自动 机 开 
始 ， 其 中 一 些 产 生 了 高 度 复 杂 的 模式 。 沃 尔 夫 勒 姆 定律 
(Wolfram’slaw) 是 对 这 种 见解 的 一 个 总 结 。 该 定律 指出 ， 你 不 必 在 

算法 空间 中 搜索 很 长 一 段 路 人 径 ， 就 可 以 找到 一 种 能 解决 一 类 有 趣 问 题 
的 算法 。 这 就 像 使 用 机 器 人 程序 在 互联 网 上 玩 类 似 《 星 际 争霸 》 的 游 
戏 一 样 ， 沦 试 所 有 可 能 的 策略 。 根 据 沃 尔 夫 勒 姆 定律 ， 算 法 空间 中 应 
该 有 大 量 算法 可 以 局 得 游戏 。 

沃 尔 夫 勒 姆 专注 于 细胞 目 动机 的 空间 ， 这 是 所 有 可 能 算法 空间 中 
一 个 小 的 子 空间 。 但 是 ， 如 果 细 胞 自动 机 是 非典 型 算法 ， 比 其 他 类 算 
法 更 具有 普遍 性 呢 ? 我 们 现在 已 经 在 神经 网 络 空间 中 确认 了 沃 尔 夫 勒 
姆 定律 。 每 个 深度 学 习 网 络 都 是 通过 学 习 算法 找到 的 ， 该 算法 是 一 种 
发 现 狐 算法 的 元 算法 。 对 于 大 型 网 络 和 大 量 数据 ， 从 不 同 的 起 始 状 态 
学 习 可 以 产生 如 星系 般 庞 大 的 网 络 数量 ， 它 们 在 解决 问题 上 都 能 达到 
相同 效果 。 这 就 产生 了 一 个 问题 ， 即 是 否 存 在 一 种 比 梯度 下 降 更 快 的 
方法 能 够 找到 算法 空间 的 区 域 。 梯 度 下 降 这 种 方法 速度 慢 ， 还 需要 使 
用 大 量 的 数据 。 有 一 个 暗示 揭示 了 这 种 可 能 性 ， 即 每 个 生物 种 类 ， 都 
是 由 生命 算法 空间 中 的 一 个 点 附近 的 变 体 DNA 序 列 创 建 的 个 体 云 。 卓 
然 界 通 过 自然 选择 设法 从 一 个 “个 体 云 ” 跳 路 到 男 一 个 云 ， 这 种 跳跃 式 
过 程 被 称 为 “间断 性 平衡 ” (punctuated equilibria) 6, 同时 每 个 物种 也 
经 历 着 随机 突变 的 局 部 搜索 。 遗 传 算法 被 设计 用 来 进行 这 样 的 跳跃 ， 
大 致 是 基于 自然 界 如 何 演化 出 新 的 有 机 体 洁 ) 。 我 们 需要 用 数学 来 描述 
这 些 算 法 云 。 可 谁 知 道 算法 的 空间 是 什么 样子 呢 ? 还 有 很 多 我 们 尚未 
发 现 的 算法 “星系 ”， 但 我 们 可 以 通过 目 动 探索 的 方式 来 找到 这 些 星系 
一 一 终极 边境 。 

我 实验 室 的 博士 后 研究 员 克 劳 斯 : 施 带 费 尔 (Klaus Stiefel) 跟 进 了 
这 一 过 程 中 的 一 个 人 简单 例子 。 他 在 2007 年 使 用 了 一 种 算法 ， 在 计算 机 
中 生成 了 具有 复杂 的 树 突 树 (dendritic trees) HRZ o OWA 


就 像 天 线 一 样 从 其 他 神经 元 收集 输入 。 可 能 的 树 突 树 的 空间 是 巨大 
的 ， 而 施 带 费 尔 的 目标 是 指定 所 需 的 功能 ， 并 在 树 突 树 的 空间 中 搜索 
能 够 计算 出 该 功能 的 模型 神经 元 。 一 个 有 效 的 功能 是 决定 输入 放电 尖 
峰 的 到 达 顺 序 ， 当 一 个 特定 的 输入 在 男 一 个 输入 之 前 到 达 时 ， 神 经 元 
应 该 输出 一 个 放电 尖峰 ， 但 是 如 果 该 输入 随后 到 达 ， 神 经 元 应 该 保持 
沉默 。 这 种 模型 神经 元 是 通过 使 用 遗传 算法 搜索 所 有 可 能 的 树 突 树 发 
现 的 ， 且 该 解决 方案 看 起 来 就 像 皮 层 锥 体 神 经 元 ， 一 个 突 触 位 于 底部 
HERR (基底 树 突 ) ， 另 一 个 突 触 位 于 神经 元 顶部 的 厚 树 突 (WM 
突 ， 见 图 14-6) 。 这 也 许 解 释 了 为 什么 锥 体 细胞 有 顶端 和 基底 的 树 
突 。 如 果 没 有 对 所 有 可 能 突 触 的 空间 进行 深入 搜索 ， 我 们 可 能 就 无 法 
将 这 种 结构 和 上 上述 功能 联系 起 来 。 通 过 从 其 他 功能 开始 重复 此 搜索 ， 
可 以 自动 编译 以 树 突 形 状 列 出 相应 功能 的 目录 ， 并 且 当 发 现 新 的 神经 
元 时 ， 可 以 在 目录 中 通过 其 树 突 形状 查找 其 潜在 的 功能 。 

斯 蒂 分 . 沃 尔 夫 勒 姆 离开 学 术 界 后 创立 了 沃 尔 夫 勒 姆 研究 所 ， 后 者 
开发 了 Mathematica 程 序 ， 该 程序 文 持 大 量 的 数学 结构 ， 并 被 广泛 应 用 
于 实际 。Mathematica 是 用 沃 尔 夫 勒 姆 语言 编写 的 ， 这 是 一 种 通用 的 融 
合 多 种 范式 的 编程 语言 。 该 语言 也 为 沃 尔 夫 勒 姆 阿尔 法 (Wolfram 
Alpha) 提供 支持 ， 它 是 第 一 个 实用 的 、 基 于 符号 方法 的 关于 大 千 世 界 
的 问答 系统 。( 沁 学 术 领 域 的 货币 ， 是 发 表 的 文章 。 如 果 你 是 一 个 自立 
的 绅士 派 科 学 家 ， 你 束 有 能 力 绕 过 人 简短 的 文章 ， 出 版 有 足够 空间 来 彻 
底 探 索 新 领域 的 书籍 。 这 是 多 个 世纪 以 来 的 常态 ， 只 有 富 人 或 富 人 赞 
助 的 学 者 ， 才 有 条 件 成 为 科学 家 。 

沃 尔 夫 勒 姆 在 2002 年 写 了 《一 种 新 的 科学 》 (A New Kind of 
Science) 一 书 。( 思 该 书 重 5.6 磅 ， 长 达 1280 页 ， 其 中 有 348 页 记录 了 相 
当 于 100 份 新 科学 论文 的 附 永 。 这 本 书 被 媒体 大 肆 宣 传 ， 但 引发 了 复杂 
系统 界 窒 贬 不 一 的 评论 ， 其 中 一 些 人 认为 其 中 并 没有 完整 地 引用 他 们 
的 工作 。 这 种 反对 意见 并 没有 抓 住 此 书 的 要 点 ， 即 把 以 前 的 工作 置 于 
新 的 语 境 下 。 卡 尔 : 林 奈 (Carolus Linnaeus) 开发 了 一 种 现代 化 的 植物 


和 动物 分 类 法 ， 即 “二 名 法 ” (Binomial Nomenclature) ， 如 大 肠 杆 菌 

(Escherichia coli) 。 该 命名 法 是 达尔 文 进化 论 的 重要 先导 ， 为 早期 的 
分 类 学 做 了 铺垫。 沃 尔 夫 勒 姆 开辟 的 这 一 人 研究 方 同 在 新 一 代 研 究 人 员 
中 已 经 有 了 一 批 追 随 者 。 

在 20 世 纪 80 年 代 ， 沃 尔 夫 勒 姆 对 神经 网 络 可 能 对 现实 世界 产生 的 
影响 表示 怀疑 ， 而 且 事实 上 ， 这 些 神经 网 络 在 之 后 30 年 的 确 没 有 产生 
太 大 的 影响 。 然 而 ， 过 去 5 年 的 进步 已 经 改变 了 这 一 点 : 沃 尔 夫 勒 姆 和 
其 他 许多 研究 人 员 承 认 他 们 低估 了 网 络 的 成 就 。 人 党) 但 是 谁 能 预测 神经 
网 络 的 性 能 会 扩展 到 什么 程度 呢 ? 文 持 Mathematica 的 沃 尔 夫 勒 姆 语言 
现在 也 支持 深度 学 习 应 用 ， 其 中 一 个 应 用 ， 是 最 早 对 图 像 中 的 对 象 提 
供 在 线 识别 技术 的 应 用 程序 。( 同 


是 斯 带 分 把 我 介绍 给 了 比 阿 特 丽 斯 :哥伦布 。1987 年 我 去 圣迭戈 
时 ， 比 阿 特 丽 斯 正在 加 州 大 学 圣迭戈 分 校 攻读 博士 学 位 。 他 打 电 话 
说 ， 他 的 朋友 比 阿 特 丽 斯 会 参加 我 的 PDP 讲 座 (之 后 又 分 别 给 我 们 打 
电话 询问 事情 的 进展 ) 。 几 年 后 ， 我 搬 到 圣迭戈 ， 后 来 义 和 比 阿 特 丽 
斯 订 了 婚 。1990 年 我 们 在 加 州 理 工学 院 举行 完婚 礼 后 ， 去 了 贝克 受 礼 
秆 参加 了 一 个 婚礼 研讨 会 ， 比 阿 特 丽 斯 吴 着 婚纱 ， 发 表 了 一 个 演讲 
一 一 《婚姻 : 理论 与 实践 》 (Marriage: Theory and Practice) ° Hara} 
自信 满 满 ， 不 无 骄傲 地 介绍 了 他 当时 是 如 何 介 绍 我 们 认识 的 。 不 过 比 
阿 等 丽 斯 提出 ， 如 果 他 想 邀 功 ， 也 必须 承担 相应 的 责任 ， 对 此 ， 他 订 
慎 地 表示 了 反对 。 


1. “21 世 纪 科 学 挑战 大 会 “* 上 讨论 者 的 演讲 视频 可 以 在 这 里 找到 : 


https://www. youtube.com/results?search_query=Grand+Challenges++for+Science+in+the+21 


st+Century ° 
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14 
必 片 崛起 


我 们 正在 目睹 电脑 芯片 行业 一 个 新 格局 的 诞生 。 该 领域 的 竞争 主 
要 在 于 如 何 设计 和 制造 新 一 代 的 芯片 ， 能 够 运行 学 习 算 法 一 一 不 管 是 
深度 学 习 、 强 化 学 习 还 是 其 他 的 学 习 算 法 一 一 比 在 通用 计算 机 上 的 模 
拟 学 习 算 法 快 上 几 千 倍 ， 能 耗 也 更 低 。 新 的 超大 规模 集成 电路 芯片 采 
取 并 行 处 理 结构 ， 带 有 内 存 ， 能 够 缓解 在 过 去 50 年 里 主导 计算 的 顺序 
汉 : 诺 依 曼 构架 中 内 存 和 中 央 处 理 峰 之 间 的 瓶颈 。 在 硬件 层面 ， 我 们 还 
在 探索 阶段 。 每 种 具有 特殊 用 途 的 超大 规模 集成 电路 芯片 都 有 不 同 的 
优点 和 局 限 性 。 运 行人 工 智能 应 用 的 大 型 网 络 需要 巨大 的 运算 能 
因此 ， 构 建 高 效 的 硬件 有 着 巨大 的 赢利 空间 。 

主要 的 电脑 芯片 公司 和 初创 公司 都 在 开发 深度 学 习 世 片上 投入 了 
大 量 资金 。 比 如 ，2016 年 ， 英 特 尔 用 4 亿美 元 并 购 了 Nervana， 这 是 一 
家 来 自 圣迭戈 的 初创 公司 ， 主 营 设 计 深 度 学 习 的 专用 超大 规模 集成 电 
路 芯片 。Nervana 前 CEO 纳 维 恩 : 饶 (Naveen Rao) 现在 负责 领导 英特尔 
新 设立 的 AI 产品 部 ， 直 接 报 告 给 英特尔 的 CEO。2017 年 ， 瑞 特 尔 用 153 
亿美 元 并 购 了 Mobileye， 该 公司 专注 于 生产 自动 委 驶 汽车 的 传感器 以 
及 计算 机 视觉 系统 。 英 伟 达 (Nvidia) 开发 了 能 够 优化 图 形 应 用 程序 
和 游戏 的 专用 数字 芯片 ， 称 为 图 形 处 理 器 (graphics processingunits ， 
GPUs) ， 目 前 正在 销售 更 多 为 深度 学 习 和 计算 设计 的 专用 芯片 。 而 谷 
歌 则 设计 生产 了 一 种 更 为 高 效 的 专用 芯片 一 一 张 量 处 理 单元 (tensor 
processing unit，TPU) ， 以 助力 为 其 互联 网 服务 的 深度 学 习 。 

不 过 研发 专用 软件 和 发 展 深度 学 习 应 用 同样 重要 。 合 歌 开源 了 它 
的 深度 学 习 项 目 TensorFlow， 尽 管 该 做 法 并 没有 看 起 来 那么 无 私 。 比 


如 让 安 盾 系统 免费 开源 ， 就 给 了 谷歌 对 全 世界 绝 大 多 数 智 能 手机 操作 
系统 的 控制 权 。 现 在 除了 TensorFlow， 还 有 其 他 一 些 开源 选择 ， 比 如 
微软 的 CNTK， 亚 马 逊 和 其 他 大 型 互联 网 公司 文 持 的 MVNet， 以 及 其 
他 深度 学 习 程序 ， 比 如 Caffe、Theano 和 PyTorch ° 


2011 年 ， 我 在 挪威 的 特 罗 姆 琴 组 织 举 办 了 由 Kavli 基 金 会 赞助 
的 “绿色 环境 中 高 性 能 计算 的 发 展 ”(Growing High Performance 
Computing in a Green Environment) fit ° GREH ， 使 用 当前 
的 微 处 理 器 技术 ， 百 亿 亿 次 级 (exascale) 计算 LIF AIRE 

(petascale) 计算 强大 1000 倍 | 需要 50 浪 瓦 的 功率 ， 比 运行 纽约 市 地 
铁 所 需 的 功率 还 多 。 因 此 ， 下 一 代 超 级 计算 机 可 能 不 得 不 使 用 像 天 国 
跨国 半导体 公司 Arm Holdings (ARM) 为 手机 开发 和 优化 的 那 种 低 功 
耗 必 片 。 很 快 ， 在 大 多 数 计算 密集 型 应 用 中 使 用 通用 数字 计算 机 将 不 
再 可 行 ， 专 用 必 片 将 占 主导 地 位 ， 因 为 它们 已 经 被 租 入 手机 中 了 。 

人 类 大 脑 中 有 大 约 1000 亿 个 神经 元 ， 每 个 神经 元 都 与 其 他 数 千 个 
神经 元 相连 接 ， 总 计 达 1000 万 亿 个 (1019) 突 触 连接 。 大 脑 运 转 所 需 
的 功 耗 大 约 是 20 瓦 ， 占 整个 映 体 运转 所 需 功 率 的 20%， 尽 管 大 脑 仅 占 
导体 质量 的 3%。 相 比 之 下 ， 一 台 远 不 如 大 脑 强大 的 千 万 亿 次 级 超级 计 
算 机 ， 功 耗 却 为 5 兆 瓦 ， 是 大 脑 功 耗 的 25 万 倍 。 大 目 然 是 怎么 创造 出 这 
一 高 效 奇 迹 的 呢 ? 首先 ， 神 经 元 接收 和 发 送信 号 的 部 分 被 微缩 至 分 子 
水 平 。 另 外 ， 神 经 元 是 在 三 维 空间 上 连接 的 〈 微 世族 表面 的 晶体 管 仅 
在 二 维 平面 上 相互 连接 ) ， 这 样 就 可 以 使 所 需 空间 最 小 化 。 由 于 大 自 
然 很 久 以 前 就 进化 出 了 这 些 技术 ， 想 要 人 退 赶 大 脑 的 能 力 ， 我 们 还 有 很 
多 工作 要 做 。 


深度 学 习 是 高 度 计 算 密集 型 的 ， 该 过 程 目 前 在 中 央 服 务 器 上 完 
成 ， 计 算 结果 会 被 传送 到 手机 等 周边 设备 。 最 终 ， 周 边 设备 应 该 是 目 
主 运行 的 ， 这 束 需 要 完全 不 同 的 人 硬件 一 一 比 云 计算 轻 得 多 ， 耗 电 也 更 
少 。 幸 运 的 是 ， 这 样 的 硬件 已 经 存在 了 ， 即 受 大 脑 局 发 设计 出 的 神经 
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1983 年 ， 我 在 匹 效 堡 交 外 一 个 度假 村 里 举行 的 研讨 会 上 第 一 次 见 
到 了 卡 弗 : 米 德 (Carver Mead) 〈 见 图 14-1) 。 那 时 杰 弗 里 : 辛 顿 创建 
了 一 个 小 组 来 探索 神经 网 络 研 究 的 发 展 趋势 。 米 德 因 其 在 计算 机 科学 
领域 的 重要 贡献 而 闻名 。 他 第 一 个 认识 到 ， 随 着 大 规模 集成 电路 芯片 
上 的 蝇 体 管 变 得 越 来 越 小 ， 沪 片 将 越 来 越 高 效 ， 计 算 能 力也 应 该 会 持 
续 增 长 很 长 一 段 时 间 。 他 还 创造 了 “摩尔 定律 "这 个 术语 ， 根 据 戈 登 . 摩 
^K (Gordon Moore) 的 观察 ， 世 片上 的 晶体 管 数量 每 18 个 月 会 翻 一 
番 。1981 年 ， 卡 弗 发 明了 硅 编 译 右 ， 从 此 成 为 业界 传奇 。 侍 编译 器 是 
一 种 自动 在 芯片 上 设计 系统 级 功能 模块 和 布线 的 程序 。 亿 在 硅 编译 器 
诞生 之 前 ， 每 球 心 片 都 是 由 工程 师 基于 经 验 和 直觉 手工 制作 出 来 的 。 
从 本 质 上 讲 ， 米 德 的 解决 方案 是 让 计算 机 自己 设计 芯片 。 这 是 我 们 到 
器 纳米 工程 的 起 点 。 


图 14-1 1976 年 的 卡 弗 : 米 德 。 正 是 在 那 段 时 期 ， 他 在 加 州 理工 学 院 创 造 了 第 一 个 硅 编译 器 。 卡 
弗 是 一 位 有 远见 的 人 ， 他 的 洞察 力 和 引领 的 技术 进步 对 数字 和 模拟 计算 产生 了 重大 影响 。 桌 
上 的 电话 暗示 了 照片 的 拍摄 时 间 。 图 片 来 源 ， 加 州 理工 学 院 。 

米 德 是 一 位 顾 有 远见 的 人 。 我 们 曾 一 起 在 匹兹堡 郊外 参加 一 个 人 研 
讨 会 。 尽 管 大 家 挤 在 楼 上 一 个 小 房间 里 的 果子 边 上 讨论 ， 但 是 正在 进 
行 着 的 是 一 场 关于 超级 计算 机 的 会 议 。 当 时 Cray 和 Control Data 等 主流 
超级 计算 机 公司 正在 设计 专用 硬件 ， 比 我 们 实验 室 的 计算 机 快 了 数 百 
倍 ， 售 价 高 达 1 亿 美元 。Cray 超 级 计算 机 速度 如 此 之 快 ， 不 得 不 用 氟 利 
昂 进 行 液体 冷却 。 米 德 告诉 我 ， 超 级 计算 机 公司 还 不 知道 ， 通 用 微 处 
理 器 将 会 占领 它们 的 市 场 ， 这 些 公司 很 快 束 会 销声匿迹 。 虽 然 比 超级 
计算 机 中 的 专用 芯片 慢 得 多 ， 但 得 益 于 因 缩 小 基本 器 件 尺 寸 所 市 来 的 
成 本 压缩 和 性 能 改进 ， 个 人 计算 机 中 的 微 处 理 器 进化 得 比 超级 计算 机 
中 的 还 要 快 。 现 在 手机 中 的 微 处 理 絮 的 计算 能 力 是 20 世 纪 80 年 代 Cray 
XMP 超 级 计算 机 的 10 倍 ， 现 在 的 高 性 能 超级 计算 机 拥有 数 十 万 个 微 处 
理 器 核心 ， 每 秒 进行 的 浮 点 运算 达到 了 于 万 亿 次 级 别 ， 比 已 经 消失 的 
Cray 超 级 计算 机 快 100 万 倍 。 考 虑 到 通货 膨胀 ， 两 者 的 成 本 大 致 是 相同 
时 。 

在 1983 年 的 那 次 研讨 会 上 ， 米 德 品 我 们 展示 了 一 个 侍 视 网 膜 ， 它 
使 用 了 与 超大 规模 集成 电路 心 厂 相同 的 制造 技术 ， 但 使 用 了 模拟 而 非 
数字 电路 。 在 模拟 电路 中 ， 唱 体 管 上 的 电压 可 以 连续 变化 ， 而 数字 电 
路 中 的 晶体 管 只 能 采用 “ 开 ? 或 * 关 ”两 个 二 进 制 值 中 的 一 个 。 人 的 视 网 
膜 上 有 一 亿 个 光 感 受 器 ， 与 相机 将 信息 从 光子 桶 (photon buckets) f£ 
动 到 记忆 体 的 方式 不 同 ， 视 网 膜 具 有 多 层 神 经 处 理 功能 ， 可 将 视觉 输 
入 转换 为 高 效 的 神经 编码 。 视 网 膜 的 所 有 处 理 过 程 都 是 模拟 的 ， 直 到 
其 编码 信号 到 达 神 经 下 细 胞 ， 神 经 和 细胞 将 这 些 信号 治 着 100 万 个 轴 
究 ， 以 “全 或 无 ”的 放电 脉冲 形式 传送 到 大 脑 。 脉 冲 信 号 的 “全 或 无 ” 特 
征 束 像 数 字 逻 辑 ， 但 放电 脉冲 的 时 间 是 一 个 模拟 变量 ， 没 有 时 钟 同 
步 ， 因 此 放电 脉冲 序列 是 一 种 混合 编码 。 


在 米 德 的 视网膜 芯片 中 ， 处 理 过 程 的 分 级 部 分 是 通过 使 用 位 于 阔 
值 拐 点 以 下 ， 从 * 关 ”到 接近 “ 关 ” 状 态 的 电压 来 完成 的 。 与 之 相反 ， 在 
数字 模式 下 运行 时 ， 晶 体 管 迅速 跳 到 完全 “ 导 通 ”的 状态 ， 这 需要 消耗 
更 多 的 功率 。 因 此 ， 模 拟 超大 规模 集成 电路 芯片 仅 消耗 数字 芯片 所 需 
能 耗 的 一 小 部 分 ， 从 纳 瓦 到 微 瓦 ， 而 不 是 从 毫 瓦 到 瓦 ， 能 量 效率 提升 
了 数 百 万 倍 。 米 德 是 神经 形态 工程 的 创始 人 ， 他 致力 于 构建 基于 大 脑 
式 算法 的 芯片 ， 在 1989 年 ， 他 表明 嵌入 在 昆虫 和 哺乳 动物 眼睛 神经 环 
路 中 的 神经 算法 ， 可 以 有 效 地 复制 到 芯片 上 。 仁 


视网膜 心 片 是 米 德 的 明星 研究 生 米 钞 .: 马 霍 沃 德 (Misha 
Mahowald) 于 1988 年 创造 的 一 项 令 人 印象 深刻 的 发 明 〈 见 图 14-2) ° 
时 她 在 加 州 理工 学 院 读本 科 时 主 修 的 是 生物 学 。 在 研究 生 阶 段 ， 她 从 
事 的 是 电子 工程 领域 鸣 工作 。 这 两 个 领域 的 结合 所 带 来 的 洞 见 帮助 她 
获得 了 四 项 专利 。1992 年 ， 她 的 博士 论文 描述 了 在 心 片上 的 实时 双 目 
匹配 ， 这 是 第 一 个 真正 使 用 集群 行为 完成 艰巨 任务 的 心 片 。 为 此 她 获 
得 了 加 州 理工 学 院 的 米尔 顿 和 弗朗西斯 :克拉 泽 奖 (Milton and Francis 
Clauser Prize) 。1996 年 ， 她 的 名 字 还 被 列 入 了 国际 技术 女性 (Women 
in Technology International, WITI) 4 A3 e 


图 14-2 1982 年 ， 加 州 理工 学 院 的 米 莎 : 马 霍 沃 德 作为 卡 弗 : 米 德 的 学 生 ， 创 造 了 当时 世界 上 第 一 
个 硅 视 网 膜 。 她 对 神经 形态 工程 的 贡献 是 开创 性 的 。 图 片 来 源 ， 托 比 -德尔 布 吕 克 。 


晶体 管 在 靖 值 附近 的 物理 特性 ， 与 生物 膜 中 离子 通道 的 生物 物理 
特性 之 间 存 在 密切 的 对 应 关系 。 马 堆 沃 德 与 牛津 大 学 的 神经 科学 家 凯 
H-T (Kevan Martin) 和 罗 德 尼 : 道 格拉 斯 (Rodney Douglas) 合作 
开发 过 硅 神 经 元 ， 沪 并 随同 他 们 一 起 搬 到 了 苏黎世 ， 帮 助 他 们 在 苏 黎 
世 大 学 和 瑞士 联邦 理工 学 院 建 立 了 神经 信息 学 研究 所 ( 见 图 14-3) 。 
然而 后 来 ， 在 经 历 了 抑郁 证 的 折磨 之 后 ， 米 钞 于 1996 年 结束 了 目 己 的 
生命 ， 时 年 33 岁 。 一 位 杰出 的 新 星 就 此 陨落 。 


图 14-3 硅 神经 元 。 该 模拟 大 规模 集成 电路 芯片 具有 类 似 于 神经 元 中 离子 通道 的 电路 ， 能 够 实 
时 对 神经 回路 进行 仿真 操作 ， 正 如 米 莎 : 马 霍 沃 德 在 芯片 上 绘制 的 卡通 图 所 示 。 图 片 来 源 : E 
德 尼 -道格拉斯 。 

卡 弗 : 米 德 于 1999 年 从 加 州 理工 学 院 退 休 后 搬 到 了 西雅图 ，2010 年 
我 去 拜访 过 他 。 在 他 家 的 后 院 ， 可 以 看 到 飞机 飞 过 水 面 有 序 地 降落 到 
Sea-Tac 机 场 。 他 的 父亲 是 一 位 工程 师 ， 在 大 溪水 电 项 目的 一 座 发 电厂 
工作 ， 该 项 目 是 位 于 加 州 中 部 内 华 达 山 脉 圣 华 金 河 上 游 系 统 的 一 个 大 
型 水 电 项 目 。 从 早期 的 水 电 技术 向 微 电 子 技术 的 飞跃 ， 仅 仅 花 了 一 代 
人 的 时 间 ， 真 令 人 难以 置信 。 卡 弗 的 爱好 是 收集 用 于 悬挂 电线 的 古董 
玻璃 和 陶 次 绝缘子。 如 果 你 选 对 了 地 点 ， 就 会 像 寻 找 散 落 的 印第安 箭 
头 一 样 轻松 地 找到 它们 。 卡 弗 目光 长 远 〈 他 拥有 一 台 激 光 陀 螺 仪 ， 曾 
经 被 用 来 测试 量子 物理 学 的 新 方法 ) ， 握 而 他 之 所 以 如 此 高 效 ， 是 因 
为 他 致力 于 打造 不 仅 能 够 正常 运转 ， 还 可 以 被 你 拿 在 手中 把 玩 的 东 
西 。 


TRESTE AS LAE 


1990 年 ， 作 为 在 加 州 理工 学 院 休 学 术 年 假 的 仙 董 杰出 学 者 ， 我 喜 
欢 参 加 实验 室 会 议 ， 尤 其 是 克里斯托弗 . 科 赫 (Christof Koch) 〈 一 位 
和 我 有 着 共同 兴趣 的 计算 神经 科学 家 ) 和 他 的 同事 的 会 议 ， 以 及 
Carverland， 即 卡 弗 : 米 德 的 研究 小 组 的 会 议 。Carverland 有 一 个 令 人 惊 
叹 的 项 目 硅 耳 蜗 ， 它 具有 和 我 们 耳 中 的 耳蜗 相 类 似 的 频率 调谐 电 
路 。 其 他 研究 人 员 正 在 人 研究 硅 突 触 ， 包 括 模仿 突 触 可 塑性 的 硅 机 制 ， 
以 便 可 以 在 硅 芯 片上 实现 长 期 的 权重 变化 。 来 自 Carverland 人 研究 小 组 的 
学 生 从 那 时 开始 走出 实验 室 ， 进 入 了 世界 各 地 的 工程 学 院 。 


1993 年 ， 克 里 斯 托 弗 . 科 赫 、 罗 德 尼 .道格拉斯 和 我 成 立 了 由 NSF 移 

助 的 神经 形态 工程 研讨 会 ， 每 年 7 月 在 科罗拉多 州 特 柳 赖 德 

(Telluride) 市 举行 为 期 三 周 的 会 议 。 这 个 研讨 会 是 国际 性 的 ， 参 会 
的 学 生 和 教师 来 目 不 同 的 背景 和 国家 。 与 大 多 数 讲座 多 于 实践 的 研讨 
会 不 同 ， 特 柳 赖 德 研讨 会 的 房间 里 挤 满 了 用 微 必 请 来 构建 机 器 人 的 学 
生 。 不 过 有 一 个 问题 ， 将 视网膜 心 片 连 接 到 视觉 皮层 必 片 ， 再 将 皮层 
心 斤 连 接 到 电机 输出 心 片 ， 这 一 步骤 需要 用 到 大 量 的 连 线 。 

用 放电 脉冲 (spikes) 连接 模拟 大 规模 集成 电路 心 片 则 要 好 得 多 ， 
我 们 的 大 脑 通 过 日 质 的 长 距离 轴 突 传输 信息 也 是 利用 了 这 种 方式 ， 这 
些 白 质 构 成 了 我 们 一 半 的 大 脑 皮 层 。 但 将 视网膜 心 片 和 皮层 心 请 通过 
上 百 万 根 线 连 接 起 来 却 完全 行 不 通 。 滁 运 的 是 ， 快 速 的 数字 逻辑 可 以 
用 来 使 每 根 导 线 多 路 复 用 ， 让 许多 视网膜 细胞 能 够 与 同一 导线 上 的 多 
个 皮层 细胞 进行 通信 。 这 一 过 程 是 通过 发 送 心 片 ， 把 每 一 个 原始 脉冲 
的 地 址 发 送 给 接收 芯片 来 实现 的 ， 接 收 必 上 乒 解 码 地 址 ， 并 路 由 到 与 它 
相连 接 的 相应 单元 ， 即 所 谓 的 “地 址 事件 表示 ” (address event 


representation) 。 


托 拜 后 斯 -德尔 布 吕 克 ( 见 图 14-4) 是 卡 弗 : 米 德 的 研究 生 之 一 ， 
全 | 他 现在 在 苏黎世 大 学 神经 信息 学 研究 所 工作 。2008 年 ， 他 开发 了 一 


种 非常 成 功 的 脉冲 视网膜 忆 乒 ， 叫 作 * 动 态 视觉 传感器 ”《\Dynamic 
Vision Sensor， 以 下 简称 DVS) 。 这 个 心 片 可 以 简化 一 些 视 觉 任务 ， 
例如 跟踪 移动 物体 ， 或 用 两 台 摄 像 机 对 物体 进行 深度 定位 〈 见 图 14- 
4， 下 图 ) 。( 周 传统 的 数码 相机 是 基于 图 像 帧 的 ， 录 制 视频 的 过 程 就 
是 存储 一 系列 间隔 大 约 26 坚 秒 的 网 像 。 这 种 做 法 会 丢失 帧 与 帧 之 间 的 
信息 : 设想 一 个 旋转 的 托盘 ， 转 速 是 每 秒 200 转 ， 盘 上 有 一 个 光 点 随 盘 
转动 ;该 光 点 会 在 每 一 帧 中 旋转 5 次 ， 但 是 数码 相机 的 回放 歼 末 看 起 来 
像 一 个 静态 环 (见方 框 14.1) 。 相 比 之 下 ， 德 尔 布 昌 克 的 脉冲 摄影 机 
可 以 以 微 秒 级 的 精度 跟 躁 移动 点 ， 并 且 只 需 很 少量 的 脉冲 ， 因 此 速度 
很 快 ， 而 且 效 率 很 高 。 作 为 第 一 款 基 于 脉冲 和 触发 定时 的 新 一 代 传 感 
絮 ，DVS 相 机 具有 很 大 的 潜力 ， 可 以 改善 包括 上 自动 敬 驶 汽车 在 内 的 许 
多 应 用 的 性 能 。2013 年 特 柳 赖 德 研 讨 会 的 其 中 一 个 项 目 ， 就 是 用 它 来 
阻挡 来 自 桌 面 的 进 球 ( 见 图 14-5) e 
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图 14-4 动态 视觉 传感器 (DVS) 。 (ER) 托 拜 厄 斯 -德尔 布 吕 克 拿 着 他 在 苏黎世 大 学 神经 信 
息 学 研究 所 发 明 的 DVS 相 机 。 这 种 相机 采用 了 专用 芯片 ， 可 以 异步 发 射 脉冲 ， 而 不 是 像 数 码 


相机 那样 按 帧 采集 图 像 。 (下 图 ) 相机 的 镜头 将 图 像 察 焦 在 模拟 超大 规模 集成 电路 芯片 上 ， 


芯片 会 对 每 个 像素 上 光 强 度 的 增加 或 减少 进行 检测 。 脉 冲 沿 着 “3 


Ta 


(on) 导线 发 出 正 增 


E, FRR” (off) 导线 发 出 负 增 量 。 输 出 脉冲 由 电路 板 处 理 ， 电 路 板 会 显示 出 例如 方 


框 14.1 中 的 脉冲 图 案 。 你 的 视网膜 是 一 台 非 常 先 进 的 DVS 相 机 。 来 


脑 中 发 生 了 转换 ， 但 该 模式 仍然 保留 了 脉冲 


pi 


视网膜 的 脉冲 图 案 在 大 


你 的 大 脑 中 并 不 存在 任何 完整 的 图 像 ， 即 使 


你 是 以 这 种 方式 感知 世界 的 。 上 图 来 源 ， 托 拜 厄 斯 -德尔 布 吕 克 。 下 图 来 源 ， 三 星 。 


14.1 
动态 视觉 传感器 的 工作 原理 


在 上 图 DVS 摄 像 机 的 图 像 帧 中 ， 白 点 是 来 目 “ 开 ”(on) 通道 的 
脉冲 ， 黑 点 是 来 自 “ 关 ”(off) 通道 的 脉冲 。 灰 色 表 示 没 有 脉冲 。 
在 左上 方 的 图 片 中 ， 可 以 检测 到 两 个 脸 部 ， 因 为 它们 在 26 坚 秒 的 
帧 间隙 内 发 生 了 轻微 的 移动 。 在 右上 角 的 GRE) AA, EA 
的 到 达 时 间 由 灰 度 表示 ， 因 此 就 能 看 到 物体 的 移动 轨迹 。 左 下 方 
图 片 中 的 旋转 盘 以 每 秒 200 转 (rps) 的 速度 旋转 。 在 底部 中 间 的 
片 中 ， 轨 迹 是 同上 移动 的 蝶 施 。 右 下 方 蝶 旋 短暂 的 300 微 秒 切片 
中 ， 只 有 80 个 脉冲 ， 通 过 测量 黑色 和 日 色 脉 冲 的 位 移 ， 并 除 以 时 


间 间 隔 ， 很 容易 计算 出 速度 。 请 注意 ， 具 有 26 坚 秒 取 帧 周期 的 普 
遍 数 码 相 机 无 法 跟随 以 200 赫 效 旋 转 的 点 ， 因 为 旋转 周期 为 5 晕 
秒 ， 并 且 每 个 帧 都 显示 了 一 个 环 。DVS 相 机 的 唯一 输出 是 一 串 脉 
冲 ， 束 像 视网膜 一 样 。 这 是 表现 场景 的 有 效 方 式 ， 因 为 大 部 分 像 
素 在 大 多 数 时 间 都 保持 不 变 ， 而 每 个 脉冲 都 携 市 着 有 用 的 信息 。 


片 来 源 : P. Lichtsteiner, C. Posch, and T. Delbruck, “A 
128x128 120 dB 15 hs Latency Asynchronous Temporal Contrast 


Vision Sensor,"IEEE Journal of Solid-State Circuits 43, no. 2 (2008): 
图 11。 资 料 来 源 : FERRER AE oe e 


脉冲 神经 元 为 计算 领域 打开 了 新 的 机 会 。 例 如 ， 神 经 元 群体 中 放 
电 脉 冲 的 时 间 可 用 于 调整 存储 的 信息 类 型 。1997 年 ， 亨 利 .马克 拉 姆 
(Henry Markram) 和 德国 的 伯 特 : 萨 克 受 (Bert Sakmann) 报道 说 ， 通 
过 对 突 触 的 输入 信号 和 突 触 后 神经 元 的 输出 信号 的 重复 配对 ， 他 们 能 
够 对 突 触 强 度 进行 增 减 。( 归 如 果 突 触 输 入 放电 发 生 在 突 触 输出 放电 之 
前 的 20 毫 秒 窗 口内 ， 突 触 会 保持 长 期 增强 ， 但 如 果 突 触 输入 放电 的 重 
复 配 对 发 生 在 突 触 输出 放电 之 后 的 20 毫 秒 窗口 内 ， 则 突 触 会 保持 长 其 
衰减 ( 见 图 14-6) 。 据 报道 “放电 时 序 依赖 可 塑性 ” (Spike-timing- 
dependent plasticity， 简 称 STDP) 曾经 被 发 现 于 许多 物种 大 脑 中 的 不 同 
部 位 ， 这 种 可 塑性 可 能 对 事件 序列 在 脑 中 形成 长 期 记忆 起 着 重要 的 作 
用 ， 但 同样 重要 的 是 ， 它 很 好 地 解释 了 赫 布 的 假定 (在 第 7 章 中 已 经 进 
行 了 讨论 ) «C9 

赫 布 可 塑性 的 普遍 观点 是 ， 当 一 个 神经 元 的 输入 和 输出 同时 出 现 
放电 脉冲 时 ， 突 触 的 强度 会 增加 ， 这 是 一 种 重合 检测 的 形式 。 但 是 赤 
布 实际 上 说 的 是 , “ 当 细 胞 A 的 轴 突 接近 到 足以 激发 细胞 B， 并 反复 或 
村 续 参 与 放电 激发 细胞 B 时 ， 细 胞 的 一 些 生长 过 程 或 代谢 变化 会 发 生 
在 其 中 一 个 或 两 个 细胞 中 ， 使 得 细胞 A (作为 激发 细胞 B 的 细胞 之 一 ) 
激发 细胞 B 的 效率 增加 ”。( 时 如 果 细 胞 A 对 激发 细胞 B 有 贡献 ， 那 么 细 


胞 A 必 须 在 细胞 B 中 的 “ 受 激发 脉冲 ”之 前 发 射 一 个 “激发 脉冲 ”。 正 如 协 
布 所 描述 的 ， 这 种 情况 提示 了 一 种 因 采 关系 ， 而 不 仅仅 是 相关 性 。 尽 
管 赫 布 没有 对 降低 突 触 强度 的 条 件 进行 描述 ， 但 当 输 入 放电 脉冲 发 生 
在 输出 放电 脉冲 之 后 时 ， 输 入 脉冲 就 不 太 可 能 导致 输出 神经 元 发 生 脉 
冲 。 如 宁 从 长 远 来 看 ， 突 触 强度 的 增强 和 降低 必须 达到 平衡 ， 那 么 这 
时 断 开 突 触 是 讲 得 通 的 。 


图 14-5 2013 年 ， 特 柳 赖 德 神 经 形态 工程 研讨 会 中 的 神经 形态 守门 员 。 (ER) Fopefolu 
Folowosele ( 左 侧 ) 在 测试 神经 形态 守门 员 CGU) 。 其 他 学 生 和 他 们 的 项 目 可 以 在 背景 中 看 
到 。 (下 图 ) 德尔 布 昌 克 的 DVS 相 机 能 驱动 油漆 搅拌 榜 转动。 这 个 守门 员 的 动作 比 学 生 要 快 
得 多 ， 并 且 成 功 地 守住 了 每 一 个 射门 。 我 也 尝试 过 ， 但 是 未 能 进 球 。 图 片 来 源 ， 托 拜 厄 斯 - 德 
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图 14-6 放电 时 序 依赖 的 可 塑性 (STDP) 。 (ARI) 伟大 的 西班牙 神经 解剖 学 家 圣迭戈 . 拉 蒙 - 
卡 哈 尔 (Santiago Ramóny Cajal) 绘制 的 皮层 中 的 锥 体 神经 元 。 神 经 元 A 的 输出 轴 突 通过 突 触 
与 神经 元 C 的 树 突 接触 〈 如 箭头 所 示 ) 。 (AR) 与 左 侧 图 中 类 似 的 两 个 神经 元 被 用 电极 穿刺 
并 施加 刺激 ， 使 两 个 神经 元 产生 的 尖峰 之 间 存 在 时 间 延 迟 。 当 神经 元 的 输入 放电 与 输出 放电 
重复 配对 时 ， 如 果 突 触 前 神经 元 放电 在 突 触 后 神经 元 放电 之 前 20 毫 秒 的 窗口 内 到 达 ， 则 突 触 
强度 (垂直 轴 ) 增加 。 如 果 顺 序 相反 ， 则 强度 降低 。 左 图 来 源 : Ramóny Cajal, S. Estudios 
Sobre la Degeneración y Regeneracióndel Sistema Nervioso(Moya，Madrid，1913-1914)， 图 
281。 右 图 来 源 : G. Q. Bi and M. M. Poo, “Synaptic Modifications in Cultured Hippocampal 


Neurons: Dependence on Spike Timing, Synaptic Strength, and Postsynaptic Cell Type,”Journal of 
Neuroscience 18 (1998): 10464-10472, 图 7。 资 料 来 源 : THEE 


在 特 柳 赖 德 神经 形态 研讨 会 上 ， 模 拟 超大 规模 集成 电路 倡导 者 和 
数字 超大 规模 集成 电路 设计 师 之 间 存 在 着 一 场 持 续 不 断 的 争论 。 模 拟 
超大 规模 集成 电路 芯片 有 许多 优点 ， 例 如 所 有 电路 并 行 工作 时 功 耗 非 
常 低 ， 但 也 存在 缺点 ， 例 如 由 于 晶体 管 的 多 样 性 ， 在 设计 图 上 相同 的 
晶体 管 产 生 的 电流 可 以 相差 t50%。 相 比 之 下 ， 数 字 超 大 规模 集成 电路 
虽然 比较 精确 ， 速 度 更 快 ， 设 计 更 容易 ， 但 需要 消耗 更 多 的 功率 。 德 
尔 门 德 拉 : 莫 德 哈 (Dharmendra Modha) 在 加 利 福 尼 亚 州 阿 尔 马 登 市 
(Almaden) IBM 研 究 所 的 团队 开发 了 一 款 数 字 必 上 族 ， 包 含 4096 个 处 
理 核心 和 54 亿 个 晶体 管 ， 被 称 为 “True North” » (ORE Both A RT DEAE 
置 来 实现 模拟 100 万 个 突 触 神经 元 ， 并 连接 2.68 亿 个 突 触 ， 却 仅仅 需要 
消耗 70 嗓 瓦 的 功率 。 但 是 这 些 突 触 的 强度 是 固定 的 ， 这 种 不 变性 限制 
了 对 许多 重要 特征 的 实现 ， 如 强度 的 弱化 或 增强 。 


具有 脉冲 神经 元 的 网 络 还 有 另 一 个 缺点 ， 即 梯度 下 降 。 脉 冲 时 间 
是 不 连续 的 ， 而 梯度 下 降 要 求 神经 元 的 输入 输出 值 在 时 间 上 是 连续 
的 。 这 就 限制 了 可 训练 脉冲 网 络 的 复杂 性 。 梯 度 下 降 在 训练 “输出 随 输 
入 连续 变化 ”神经 元 的 深度 网 络 方面 取得 了 巨大 成 功 ， 神 经 元 的 输出 画 
数 是 可 微分 的 ， 这 是 反 向 传播 学 习 算 法 的 基本 特征 。 尽 管 在 不 可 微分 
脉冲 网 络 中 ， 脉 冲 的 发 生 不 具有 连续 性 ， 但 是 我 实验 室 的 博士 后 研究 
员 本 . 哈 (Ben Huh) 最 近 克 服 了 这 个 缺点 ， 他 找到 了 一 种 方法 ， 能 够 
让 脉冲 神经 元 的 循环 网 络 模型 使 用 梯度 下 降 ， 在 长 时 间 序列 上 执行 复 
杂 的 任务 。 电 这 一 成 果 打 开 了 深度 脉冲 网 络 的 大 门 。 


摩尔 定律 的 终结 


正如 摩尔 定律 预测 的 那样 ， 自 20 世 纪 50 年 代数 字 计 算 机 发 明 以 
来 ,计算 机 的 能 力 增加 了 超过 1 万 亿 倍 。 从 来 没有 技术 能 以 如 此 高 的 数 


量 级 呈 指 数 增长 ， 计 算 机 已 经 融入 了 几乎 所 有 制造 设备 ， 从 玩具 到 汽 
车 。 计 算 机 可 以 目 动 调 节 现 代 望 远 镜 的 目 适应 光学 系统 ， 以 最 大 限度 
地 提高 其 分 辨 率 ， 它们 可 以 分 析 现 代 显微镜 捕获 的 光子 ， 以 超 分 辨 率 
定位 分 子 。 当今 的 每 一 个 科技 领域 都 依赖 于 超大 规模 集成 电路 必 片 。 

卡 弗 : 米 德 预测 ， 这 些 心 族 的 升级 是 基于 缩小 元 件 间 线 视 的 可 能 
性 ， 但 是 目前 的 宽度 已 经 达到 了 物理 极限 : 导线 中 的 电子 太 少 ， 可 能 
会 泄漏 或 被 随机 电压 阻挡 ， 其 至 使 数字 电路 都 不 再 可 靠 。( 岂 摩尔 定律 
要 终结 了 吗 ? 我 们 需要 完全 不 同 的 体系 结构 来 继续 提高 处 理 能 力 ， 这 
种 结构 能 够 不 依赖 于 数字 设计 的 完美 精度 。 正 如 混合 动力 汽车 将 电动 
机 的 效率 与 汽油 发 动机 的 续航 结合 起 来 一 样 ， 寓 合 数字 和 神经 形态 设 
计 正 在 兴起 ， 能 够 将 神经 形态 必 片 的 计算 低 功 耗 与 通信 数字 必 族 的 高 
市 宽 相 结 合 。 

摩尔 定律 的 表述 仅仅 是 基于 心 片 的 处 理 能 力 。 随 着 并 行 染 构 在 随 
后 50 年 内 的 不 断 发 展 ， 摩 尔 定律 应 该 被 考虑 了 能 量 和 吞吐 量 的 定律 所 
取代 。 在 俄 勒 内 州 波 特 兰 举办 的 英特尔 2018 NICE 大 会 上 ， 来 目 美 国 
和 欧洲 的 研究 人 员 展 示 了 三 球 新 的 神经 形态 芯片 ， 来 目 英 特 尔 的 Loihi 
研究 必 片 ， 以 及 由 欧洲 人 类 大 脑 项 目 文 持 的 两 款 第 二 代 心 片 。 随 着 大 
规模 并 行 体系 结构 的 发 展 ， 能 够 在 这 些 体系 结构 上 运行 的 新 算法 也 陆 
续 被 创造 出 来 。 但 十 这 些 体系 结构 中 的 芯片 需要 交流 信息 ， 这 也 是 第 
15 草 所 要 讨论 的 内 容 。 
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15 
信息 科学 


我 从 来 没有 想 过 ， 有 一 天 我 会 成 为 无 所 不 知 的 人 ， 而 事实 上 ， 我 
和 现在 任何 能 上 网 的 人 都 做 到 了 “。 信 息 在 互联 网 上 以 光速 传播 ， 从 互 
联网 上 获取 信息 比 从 书架 上 的 书 里 获取 信息 更 方便 。 我 们 生活 在 各 种 
形式 的 信息 爆炸 的 时 代 。 科 学 仪器 ， 从 望远镜 到 显微镜 ， 搜集 的 信息 
量 远 超 现 在 训练 机 器 学 习 所 使 用 的 数据 集 。 美 国 国 家 安全 局 使 用 机 咽 
学 习 来 过 滤 他 们 从 各 处 搜集 到 的 信息 。 经 济 活动 走 同 了 数字 化 ， 许 多 
公司 对 有 编程 拉 能 的 人 才 的 需求 量 与 日 俱 增 。 在 世界 从 工业 经 济 走 癌 
言 思 经济 的 同时 ， 教 育 和 职业 培训 也 必须 适应 这 一 变化 。 这 一 切 已 经 
对 我 们 的 世界 产生 了 深远 影响 。 


用 字 太 丈量 世界 


1948 年 ， 在 AT&T 公 司 位 于 新 泽 西 州 默 里 山 (Murray Hill) 的 贝尔 
实验 室 里 ， 克 劳 德 :香农 (Claud Shannon， 见 图 15-1) 提出 了 一 种 非常 
简单 却 很 微妙 的 信息 理论 ， 来 理解 有 了 噪声 的 电话 线 里 的 信号 传输 问 
题 。 里香 农 的 理论 推动 了 数字 通信 的 革命 ， 并 为 移动 电话 、 数 字 电 视 
以 及 互联 网 的 诞生 奠定 了 基础 。 打 电话 的 时 候 ， 你 的 声音 被 编码 为 “ 比 
特 "， 通 过 无 线 电波 和 数字 电缆 传送 到 接收 端 ， 接 收 端 再 将 比特 解码 并 
转化 为 声音 。 信 息 论 给 通信 信道 《图 15-2) ANP RAE FLED, 3r 
香农 极限 的 不 同 编码 也 被 设计 了 出 来 。 


图 15-1 克 劳 德 .香农 与 电话 交换 网 络 (照片 拍摄 于 1963 年 前 后 ) 。 他 发 明 信 息 论 时 仍 在 AT&T 
贝尔 实验 室 任职 。 图 片 来 源 : Alfred Eisenstaedt/The LIFE Picture — Images ° 
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图 15-2 香农 的 通信 系统 模型 。 该 消息 被 编码 成 二 进 制 比特 ， 并 沿 着 一 条 可 能 是 电话 线 或 无 线 
电波 的 信道 向 下 传输 ， 在 终端 被 接收 和 解码 。 区 “每 秒 比特 数 " 为 单位 的 信道 容量 取决 于 系统 
中 的 噪声 量 。 


尽管 世界 上 的 信息 形式 丰 定 多样， 有 一 种 测量 方式 却 能 够 精确 测 
量 一 个 数据 集中 信息 的 大 小 。 信 息 的 单位 是 二 进 制 比特 ， 每 个 比特 只 
能 有 0 或 1 两 种 值 。 一 个 字 下 包含 8 个 比特 。 高 质量 照片 的 信息 内 容 以 兆 


字 节 或 者 说 百 万 字 节 计数 。 手 机 的 存储 信息 以 吉 字 节 (GB) 或 称 千 兆 
字 节 计数 。 网 络 上 的 数据 以 拍 字 入 (PB) 或 称 百 万 吉 字 节 计 数 。 


用 效 学 思维 解决 通信 难题 


在 IEEE (电气 和 电子 工程 师 协 会 ) 的 年 度 国际 研讨 会 上 ，IEEE 信 
息 理 论 学 会 (TS) 都 会 颁发 * 克 筋 德 .香农 奖 >， 这 是 表彰 这 一 领域 杰 
i 在 1985 年 英国 布 莱 顿 举办 的 该 学 会 的 会 议 

“香农 奖 ” 被 颁发 给 了 南 加 州 大 学 的 所 有 罗 门 :哥伦布 (Solomon 
图 15-3) ， 他 在 移 位 寄存 器 序列 (shift register sequences) 
方面 的 工作 为 现代 数字 通信 英 定 了 基础 。( 周 移 位 寄存 器 序列 是 一 种 生 
成 0 和 1 的 长 伪 随 机 序列 的 算法 。 每 次 你 用 手机 打 电 话 时 ， 都 使 用 了 移 
位 寄存 器 序列 。 哥 伦 布 展示 了 如 何 使 用 移 位 寄存 器 序列 对 信号 进行 高 
效 编码 ， 然 后 可 以 在 接收 大 处 传输 和 解码 。 如 有 末 将 手机 和 其 他 通信 系 
统 产 生 移 位 寄存 器 序列 的 次 数 昧 加 起 来 ， 得 到 的 数字 将 是 怀 人 的 : 超 
过 千 稳 次 ， 即 1027 次 (1.000,000,000,000,000,000,000,000.000) » =) 


图 15-3 所 罗 门 -哥伦布 在 2013 年 获得 了 美国 国家 科学 奖章 。 他 对 移 位 寄存 器 序列 进行 的 数学 分 
析 使 人 类 能 够 与 深 空 探测 器 通信 ， 当 时 他 在 位 于 帕 陕 迪 纳 (Pasadena) 的 加 州 理 工学 院 喷 气 
推进 实验 室 (IPL) 工作 ;， 移 位 寄存 器 序列 后 来 被 嵌入 到 手机 通信 系统 中 。 每 当 你 使 用 手机 的 
时 候 ， 都 在 使 用 他 的 数学 代码 。 图 片 来 源 : 南 加 州 大 学 。 

我 曾 问 过 所 罗 门 :哥伦布 〈 也 是 我 的 岳父 ) 他 是 如 何 得 到 如 此 优雅 
的 方案 来 解决 通信 问题 的 。 他 说 这 是 来 自 他 在 数论 方面 的 训练 ， 这 是 
数学 中 最 抽象 的 部 分 之 一 。 当 他 在 巴尔 的 摩 的 Glenn L. Martin 公 司 做 署 
期 实习 生 时 ， 束 曾 接 触 过 移 位 寄存 器 序列 。1956 年 ， 在 哈佛 大 学 获得 
数论 专业 〈 一 种 高 度 抽象 的 数学 领域 ) 的 博士 学 位 后 ， 他 到 了 加 州 理 
工学 院 喷 气 推进 实验 室 (Jet Propulsion Laboratory， 以 下 简称 JPL) T 
作 。 在 那里 ， 他 担任 通信 组 的 负责 人 ， 并 从 事 空 间 通 信 工 作 。 深 空 探 
测 恬 被 发 送 到 太阳 系 的 远 端 ， 但 返回 的 信号 微弱 且 嘲 杂 。 移 位 寄存 妖 
序列 和 纠 错 码 大 大 改善 了 与 空间 探测 絮 通 信 的 效果 ， 相 同 的 数学 原理 
更 是 为 现代 数字 通信 英 定 了 基础 。 

哥伦布 在 JPL 的 时 候 曾 聘请 过 另 一 位 杰出 的 信息 理论 家 安德鲁 . 维 
特 比 (Andrew Viterbi) ， 并 将 他 介绍 给 了 从 麻 省 理工 来 JPL 休 学 术 年 
假 的 厄 文 : 雅 各 布 (Irwin Jacobs) 。 几 十 年 后 的 1985 年 ， 维 特 比 和 雅 各 
布 联 手 创建 了 高 通 ， 从 此 彻底 改变 了 手机 技术 。 该 公司 使 用 移 位 寄存 
属 序 列 将 信息 分 布 在 很 沉 的 频带 上 进行 传播 ， 这 比 使 用 单一 频率 的 通 
信 方 式 更 有 效 。 该 想法 的 一 个 简单 版 本 可 以 追溯 到 海带 : 拉 玛 (Hedy 
Lamarr) 《〈 见 图 15-4) ， 她 是 一 位 电影 演员 兼 发 明 家 ， 于 1941 年 与 他 
人 共同 分 享 了 跳 频 (frequency hopping) 技术 的 专利 ， 这 是 她 在 第 二 次 
世界 大 战 期 间 为 军 方 开 发 的 安全 通信 系统 。( 四 哥伦布 离开 JPL 加 入 南 
加 州 大 学 后 ， 爱 德 华 :波斯 纳 (就 是 创建 了 NIPS 的 爱德华 .波斯 纳 ) 接 
管 了 他 的 团队 ， 但 哥伦布 仍然 在 继续 为 他 的 前 JPL 团 队 提 供 文 持 和 建 
议 。 


ae ENN 
图 15-4 海 蒂 . 拉 玛 于 1940 年 在 米 高 梅 拍摄 的 宣传 照 。 她 是 第 二 次 世界 大 战 期 间 舞 台 和 银幕 上 的 
明星 ， 也 是 跳 频 技术 的 联合 发 明 人 之 一 。 该 技术 与 军 方 和 许多 手机 中 使 用 的 扩 频 通信 有 关 。 
移 位 寄存 器 序列 背后 的 数学 是 数论 中 比较 深奥 的 部 分 。 当 哥伦布 
从 哈佛 大 学 获得 博士 学 位 时 ， 他 的 博士 生 导师 和 当时 的 大 多 数 数学 家 
都 相信 ， 纯 数学 永远 不 会 有 任何 实际 的 应 用 。 剑 桥 学 者 哈代 (G. H. 
Hardy) 在 其 富 于 影响 力 的 著作 《一 位 数学 家 的 道 菊 》 (A 
Mathematician's Apology) ( 旺 中 分 享 了 这 种 观点 。 他 宣称 “好 ”的 数学 必 
须 是 纯粹 的 ， 而 应 用 数学 是 “无 趣 的 ”。 但 数学 只 是 数学 本 身 ， 并 没有 
纯粹 和 应 用 之 分 。 一 些 数学 家 可 能 希望 他 们 的 数学 是 纯粹 的 ， 但 他 们 
无 法 阻止 它 解决 现实 世界 中 的 实际 问题 。 事 实 上 ， 哥 伦 布 的 职业 生涯 
主要 是 通过 找到 "“ 纯 数学 "中 正确 的 工具 来 解决 实际 问题 而 被 定义 的 。 
哥伦布 还 发 明了 数学 游戏 。 他 的 书 《多 格 骨 牌 》 (Polyominoes) 
(9 引入 了 包含 许多 个 正方 形 的 各 种 形状 ， 扩 展 了 只 有 两 格 正方 形 的 多 
米 诺 骨牌 。 马 丁 .加 德 纳 (Martin Gardner) 在 《科学 美国 人 》 的 “数学 
游戏 ”专栏 中 推广 了 多 格 骨 牌 。 四 格 骨牌 (Tetrominoes ， 是 由 四 个 方 
块 组 成 的 形状 ， 俄 罗斯 方块 的 灵感 就 来 源 于 此 。 俄 罗斯 方块 是 一 款 会 


令 人 上 瘾 的 游戏 ， 四 格 骨牌 从 上 面 像 雨 点 一 样 落 下 来 ， 需 要 将 它们 引 
导 至 友 部 的 插 槽 。 多 格 骨 牌 至 今 仍 然 是 一 种 流行 的 棋盘 游戏 ， 并 且 在 
数学 的 一 个 子 领域 里 引发 了 一 系列 有 趣 的 组 合 问题 。 

哥伦布 也 是 研究 《圣经 》 的 学 者 ， 会 说 几 十 种 语言 ， 包 括 日 语 和 
普通 话 。 比 阿 特 丽 斯 曾经 带 给 他 道格拉斯 : 霍 夫 斯 塔 特 (Douglas 
R.Hofstadter) WAE CFAR ` LER EH: 集 异 壁 之 大 成 》 

( Gódel,Escher, Bach: An Eternal Golden Braid) 的 初版 。 他 打开 卷 

首 ， 标 题 说 这 是 古 希 伯 来 语 《 创 世 记 》 的 前 20 行 。“ 首 先 ， 它 是 颠倒 
的 。?” 他 说 ， 然 后 把 书 转 过 来 ,“ 其 次 ， 这 是 古 撒 玛 利 亚 语 ， 而 不 是 古 
硕 伯 来 语 。 第 三 ， 这 不 是 《 创 世 记 》 的 前 20 行 ， 只 是 《 创 世 记 》 前 20 
行 每 行 的 前 7 个 字 。?” 他 继续 读 下 去 ， 并 翻译 了 这 段 经 文 。 

克 劳 德 .香农 参加 了 1985 年 在 布 菜 顿 举行 的 TS 座谈 会 ， 哥 伦 布 在 
会 上 做 了 一 场 香农 讲座 。 这 是 香农 继 1972 年 自己 的 那 次 讲座 后 ， 参 加 
的 唯一 一 次 香农 讲座 。 


预测 是 如 何 产生 的 


在 通信 系统 中 ， 无 论 是 空间 上 还 是 时 间 上 ， 变 化 都 具有 很 高 的 信 
息 价值 。 强 度 均匀 的 图 像 和 没有 变化 的 信号 一 样 ， 几 乎 不 提供 任何 信 
息 。 向 大 脑 发 送信 号 的 传感器 主要 用 来 检测 变化 ， 我 们 已 经 在 第 5 章 的 
视网膜 和 第 14 章 中 托 拜 捷 斯 -德尔 布 吕 克 的 DVS 相 机 中 看 到 了 一 些 例 
子 。 一 旦 在 视网膜 上 稳定 下 来 ， 图 像 会 在 几 秒 钟 后 消失 。( 沁 尽管 我 们 
没有 意识 到 这 一 点 ， 我 们 的 眼睛 进行 的 微小 跳动 ， 即 微 跳动 
(microsaccades) ， 每 秒 钟 都 会 发 生 几 次 ， 每 次 跳动 都 会 刷新 我 们 大 
脑 内 部 针对 外 部 世界 所 搭建 的 模型 。 当 外 部 世界 的 某 些 事物 发 生 移动 
时 ， 视 网 膜 会 及 时 向 上 报告 ， 它 们 的 报告 还 更 新 了 大 脑 的 外 界 模 型 ， 
如 图 15-5 所 示 。 大 脑 的 模型 是 一 个 层级 结构 的 模型 ， 传 入 的 感官 信息 


和 模型 期 望 值 之 间 的 比较 发 生 在 多 个 层次 上 。( 电 明亮 的 闪光 或 巨大 的 
噪声 ， 通 过 自 下 而 上 地 突显 差异 ， 立 刻 引 起 了 你 的 注意 。 但 是 你 通过 
对 记忆 自 上 而 下 的 比较 ， 注 意 到 桌面 上 的 某 些 东西 在 更 高 的 层级 上 发 
生 了 变化 。 所 有 这 些 在 大 脑 中 实时 发 生 的 事情 ， 都 会 让 人 想起 卡 弗 . 米 
AMOS, “MME Bate e 9 
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预测 误差 
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图 15-5 具有 层级 结构 的 预测 编码 框架 。 感 知 取 决 于 对 早期 感官 事件 提取 的 规律 性 的 期 望 。 在 
这 个 框架 中 ， 由 较 高 层级 皮层 产生 的 当前 感知 信号 的 预测 来 自 E 和 R 群 体 之 间 的 相互 作用 ， 并 
且 被 反馈 到 下 面 的 层级 (E 是 误差 单元 ，R 是 表征 单元 。 只 有 预测 误差 会 向 前 传播 。 这 是 对 
雍 姆 霍 效 无 意识 推理 的 实现 。 图 片 来 源 : Gábor Stefanics, Jan Kremlácek, and Istvan Czigler, 
“Visual Mismatch Negativity: A Predictive Coding View,”Frontiers in Human Neuroscience 8 
(2014): 666, 图 1. doi:10.3389/fnhum.2014.00666 ° 


PUM AS AT LGB E OEE, ACU IER 
推理 ， dee aique i 填充 不 完整 的 信息 ， 并 
解释 视觉 场景 。( 电 例如 ， 一 个 熟人 的 照片 在 我 们 视网膜 里 是 有 单眼 深 
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大 卫 : 鲁 姆 哈 特 发 现 ， 当 字母 位 于 单词 中 时 ， 被 试 者 能 够 比 在 没有 语 境 
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的 非 单词 环境 中 更 快 地 将 它们 识别 出 来 。( 包 他 们 的 并 行 处 理 模型 展现 
出 了 类 似 的 行为 ， 这 使 得 两 位 研究 人 员 相 信 ， 他 们 正在 沿 着 理解 信息 
如 何在 我 们 的 大 脑 中 呈现 的 正确 轨道 上 前 行 。 


深度 理解 大 脑 


2013 年 4 月 2 日 由 白宫 发 起 的 美国 “BRAIN 计 划 ”( 见 图 15-6) WA 
标 ， 是 创造 新 的 神经 技术 ， 以 加 速 我 们 对 “终极 信息 机 器 ”>， 即 大 脑 的 
功能 和 障碍 的 进一步 理解 。 正 如 NIPS 会 议 将 许多 学 科 的 研究 人 员 聚 集 
在 一 起 创建 有 学 习 能 力 的 机 器 一 样 ,，“BRAIN 计 划 * 正 在 将 工程 师 、 数 
学 家 和 物理 学 家 引入 神经 科学 领域 ， 以 改进 探测 大 脑 的 工具 。 随 着 我 
们 对 大 脑 ， 尤 其 是 关于 学 习 和 记忆 机 制 的 了 解 更 加 深入 ， 我 们 将 更 好 
地 理解 大 脑 功能 的 原理 。 
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图 15-6 在 2013 年 4 月 2 日 白宫 宣布 <BRAIN 计 划 ” 之 前 ， 参 加 会 议 的 相关 机 构 和 研究 所 的 代表 
fle MBE) 科 维 理 基 金 会 首席 科学 官 全 美 永 (Miyoung Chun) , 她 起 草 了 “BRAIN 计 
RP ARB; RURAL (William Newsome) ，NIH 关 于 "BRAIN 计划” 咨询 委员 会 的 联合 主 
席 ， 弗 朗 西 斯 柯林斯 (Francis Collins) ，NIH 院 长 ， 杰 拉 德 . 鲁 宾 (Gerald Rubin) ， 霍 华 德 . 
体 斯 医学 研究 所 珍妮 莉 娅 研究 园区 (Janelia Research Campus of the Howard Hughes Medical 


Institute) E£; PHSR (Cora Maret) ， 美 国 国家 科学 基金 会 主任 ; 巴 拉 克 :奥巴马 
(Barack Obama) ， 时 任 美国 总 统 ， 艾 米 - 古 特 曼 (Amy Gutmann) ， 总 统 生命 伦理 委员 会 主 
E: 罗伯特 . 康 恩 (Robert Conn) ， 科 维 理 基 金 会 主席 ， 阿 尔 提 . 普 拉巴 卡尔 (Arati 


Prabhakar) ，DARPA 主 任 ， 艾 伦 - 琼 斯 (Alan Jones) ， 艾 伦 脑 科学 研究 所 所 长 ;我 ， 索 尔 克 
研究 所 。 图 片 来 源 : 托马斯 ' 卡 里 尔 (Thomas Kalil) 。 

虽然 在 分 子 和 细胞 水 平 上 对 大 脑 有 了 深入 的 了 解 ， 但 我 们 还 没有 
在 更 高 层次 上 对 大 脑 的 结构 有 一 个 同等 的 认 知 。 我 们 已 经 知道 ， 不 同 
类 型 的 信息 被 分 散 到 皮层 的 不 同 部 分 进行 储存 ， 却 不 清楚 如 何 快速 检 
索 所 有 分 散 的 信息 以 解决 复杂 的 问题 ， 例 如 我 们 能 够 通过 存储 在 皮层 
不 同 部 位 的 人 脸 的 图 像 ， 识 别 出 一 个 人 的 名 字 。 这 个 问题 与 大 脑 中 总 
识 的 起 源 密切 相关 。 


我 的 实验 室 最 近 发 现 了 人 类 大 脑 在 睡眠 期 间 的 整体 活动 模式 ， 可 
以 让 我 们 了 解 大 脑 皮 层 中 广泛 分 布 的 信息 是 如 何 联系 在 一 起 的 。 在 恢 
复 性 慢 波 睡眠 和 快速 眼 动 (REM) 睡眠 之 间 的 睡眠 阶段 ， 高 度 同 步 的 
PRA “HEARSE” (sleep spindles) 的 时 空 振荡 ， 主 导 着 皮层 的 活动 。 这 
些 10 到 14 赫 效 的 振 沪 会 持续 几 秒 钟 ， 并 在 夜间 发 生 数 千 次 。 有 实验 证 
据 表 明 ， 在 我 们 睡觉 时 睡眠 锭 参与 了 记忆 的 巩固 。 通 过 来 自 人 脑 皮 层 
HERK, R (Lyle Muller) 、 西 德 尼 : 卡 什 (Sydney Cash) ` 7 
瓦 尼 . 皮 安 托尼 (Giovanni Piantoni) 、 多 米 尼克 :科勒 (Dominik 
Koller) 、 埃 里 克 : 哈 格 伦 (Eric Halgren) MERERI, HIREK 
层 中 是 一 种 无 处 不 在 的 ， 扫 过 皮层 所 有 部 分 的 电 活 动 的 循环 行 波 (图 
15-7) 。 COS Te T EMAER” (Princess Leia Waves) ， 因 为 
它们 看 起 来 跟 这 位 公主 的 发 型 很 像 (图 15-8) 。 我 们 推测 ， 睡 眠 锭 可 
能 是 皮层 将 白天 获得 的 新 信息 ， 与 完 前 分 布 在 皮层 中 的 记忆 相 结 合 的 
一 种 方式 ， 加 强 了 它们 之 间 的 长 距离 连接 。 这 是 "BRAIN 计划 ?推动 的 
系统 神经 科学 层次 的 众多 人 研究 项 目 之 一 。 
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图 15-7 在 人 类 大 脑 皮层 中 的 循环 电子 行 波 。 这 是 在 睡眠 铣 期 间 ， 从 皮层 表面 上 用 8x8 网 格 电极 
记录 下 来 的 图 像 。 睡 眠 锭 涉及 记忆 巩固 。 ( 左 ) 睡眠 狂 是 治 着 箭头 所 示 方 向 穿 过 皮层 侧 视图 
的 循环 行 波 ， 每 80 写 秒 完成 一 个 循环 。 这 一 过 程 在 夜间 会 重复 数 千 次 。 (A) 小 箭头 表示 循 


环 期 间 ， 在 皮层 表面 64 个 记录 点 上 行 波 移 动 出 现 最 大 增加 量 的 方向 。 图 片 来 源 : L. Muller, 
G. Piantoni, D. Koller, S.S.Cash, E.Halgren and T. J.Sejnowski, “Rotating Waves during 
Human Sleep Spindles Organize Global Patterns of Activity during the Night"Supplementary 7, 
subject 3, TPF° AA: 图 2B， 右 图 : 图 1。 


图 15-8 HLAP (Carrie Fisher) 饰演 的 莱 娅 公主 ， 巩 固 了 对 1977 年 史诗 级 科幻 电影 《星球 大 
成 》 的 记忆 。 她 的 发 到 很 像 睡 眠 锭 期 间 穿 过 皮层 的 循环 流 场 (对 比 图 15-7) 。 


大 脑 的 操作 系统 


数字 计算 机 和 神经 网 络 的 体系 结构 不 同 。 在 数字 计算 机 中 ， 内 存 
和 CPU 在 空间 上 是 分 开 的 ， 并 且 内 存 中 的 数据 必须 依照 顺序 移动 到 
CPU 中 。 在 神经 网 络 中 ， 处 理 过 程 在 内 存 中 并 行进 行 ， 这 区 消除 了 内 
存 和 处 理 器 之 间 的 数字 席 贷 ， 并 且 人 允许 大 规模 并 行 处 理 ， 因 为 网 络 中 
的 所 有 单元 都 在 同时 工作 。 神 经 网 络 中 的 软件 和 人 硬件 之 间 也 没有 区 
别 。 学 习 是 通过 修改 硬件 来 进行 的 。 

从 20 世 纪 80 年 代 开 始 ， 当 计算 机 集群 被 装配 在 一 个 机 织 中 时 ， 数 
字 计 算 机 已 经 变 得 可 以 大 规模 并 行 了 。 最 早 的 并 行 计算 机 之 一 是 
Connection Machine, ， 由 丹 尼 : 希 利 斯 (Danny Hillis) 于 1985 年 设计 出 
来 ， 并 由 Thinking Machines 公 司 出 售 。 和 硕 利 斯 是 一 位 工程 师 和 发 明 
家 ， 他 在 麻 省 理工 学 院 接受 塔 训 时 ， 人 们 已 经 清楚 地 认识 到 ， 要 让 人 
工 智 能 解决 非常 复杂 的 现实 世界 问题 ， 束 需要 更 多 的 计算 能 力 。20 世 
纪 90 年 代 ， 根 据 摩尔 定律 ， 计 算 机 心 片上 的 晶体 管 数 量 持续 增加 。 我 
们 有 可 能 将 许多 处 理 单 元 放置 在 同一 必 片 上 ， 许 多 必 片 放置 在 同一 电 
路 板 上 ， 许 多 电路 板 放 置 在 同一 机 箱 中 ， 以 及 把 许多 机 箱 放 在 同一 个 
房间 里 ， 结 有 果 是 ， 如 今 地 球 上 最 快 的 计算 机 拥有 数 百 万 个 内 核 ， 并 且 
每 秒 可 以 实现 数 千 万 亿 次 操作 。 百 亿 亿 次 级 的 计算 正在 以 每 秒 10 亿 乘 
10 亿 次 操作 的 形式 出 现 。 

模拟 神经 网 络 可 以 最 大 限度 地 利用 这 种 大 规模 并 行 硬件 。 多 个 核 
心 可 以 通过 编程 为 同一 个 网 络 模型 并 行 工 作 ， 这 束 大 大 加 快 了 处 理 速 
度 ， 但 也 会 导致 处 理 絮 之 间 的 通信 延迟 。 为 了 减少 这 些 延 迟 ， 一 些 公 
司 正在 构建 专用 数字 协 处 理 器 ， 这 将 极 大 地 加 速 网 络 模拟 ， 使 语音 和 
视觉 等 认 知 任务 成 为 单一 强大 的 指令 。 使 用 深度 学 习 网 络 心 族 的 智能 
手机 将 变 得 更 加 智能 化 。 

数字 计算 机 具有 将 我 们 与 硬件 分 开 的 操作 系统 ( 方 框 15.1) 。 当 
我 们 在 笔记 本 电脑 上 运行 文字 处 理 程序 ， 或 在 手机 上 使 用 应 用 程序 


时 ， 操 作 系 统 会 处 理 程序 的 细 市 ， 例 如 将 按键 信息 放 到 内 存 的 哪个 位 
置 ， 以 及 如 何在 屏 医 上 显示 程序 输出 。 我 们 的 意识 在 大 脑 的 操作 系统 
上 运行 着 应 用 程序 ， 大 脑 操作 系统 将 信息 的 内 容 、 位 置 ， 以 及 存储 方 
法 与 意识 隔离 开 来 。 我 们 并 不 知道 大 脑 是 如 何 储存 我 们 一 生 积累 的 大 
量 经 验 的 ， 也 不 知道 这 些 经 验 如 何 塑造 我 们 的 行为 。 虽 然 有 可 能 明确 
地 解释 一 些 经 验 ， 但 我 们 所 理解 的 这 部 分 只 是 冰山 一 角 。 我 们 的 大 脑 
如 何 管理 这 些 信息 仍然 古 个 恋 。 如 采 我 们 能 够 弄 清楚 大 脑 的 操作 系统 
征 如 何 工 作 的 ， 束 可 以 基于 相同 的 一 般 原 则 来 组 织 大 数据 。 相 应 地 ， 
意识 也 可 以 被 解释 为 运行 在 大 脑 操 作 系统 上 的 应 用 程序 。 


生物 学 与 计算 科学 


信息 爆炸 已 经 将 生物 学 转化 为 量化 科学 。 对 于 传统 生物 学 家 ， 除 
了 统计 学 入 门 课程 之 外 ， 通 和 只 需要 一 点 额外 的 数学 培训 束 能 够 分 析 
他 们 的 数据 ， 这 些 数据 很 少 ， 也 很 难 获得 。 在 2002 年 由 长 岛 冷 录 港 实 
验 宇 举办 的 分 子 遗 传 学 研讨 会 上 ， 我 感觉 目 己 束 像 一 条 离 了 水 的 鱼 ， 
因为 我 是 唯一 一 个 做 计算 主题 演讲 的 人 。 在 我 前 面 演讲 的 是 分 子 遗 传 
学 家 勒 罗 伊 : 胡 德 (Leroy Hood) ， 他 在 加 州 理 工学 院 工 作 了 多 年 。 
1987 年 我 在 加 州 理工 学 院 休 学 术 年 假 时 ， 惊 讶 地 发 现 胡 德 的 实验 室 多 
得 儿 乎 占据 了 整 栋 大 楼 。 后 来 ， 他 搬 到 了 西雅图 ， 并 在 2000 年 联合 创 
立 了 系统 生物 学 研究 所 。 这 一 新 的 领域 昌 在 试图 了 解 细胞 内 所 有 分 子 
相互 作用 的 复杂 性 。 


15.1 
电子 计算 机 的 操作 系统 


操作 系统 对 在 计算 机 的 硬件 上 运行 的 程序 进行 控制 。 如 果 你 
使 用 的 是 个 人 电脑 (PC) ， 那 么 操作 系统 通常 是 Windows; AI 
你 使 用 的 是 iPhone， 用 的 则 是 iOS 系 统 ; 大 多 数 服务 器 运行 的 都 是 
某 种 版 本 的 UNIX。 操 作 系统 在 程序 需要 时 分 配 内 存 ; 它 也 可 以 在 
幕后 跟踪 程序， 使 用 称 为 “守护 程序 ”(\daemons) 的 进程 在 后 台 运 
行 ， 并 跟 踩 打印 机 和 显示 器 等 设备 。 控 作 系 统 可 以 在 任何 硬件 上 
工作 ， 使 得 你 的 应 用 程序 可 以 移植 到 不 同 的 计算 机 上 。 


胡 德 在 演讲 中 提 到 ， 有 一 天 他 心血 来 潮 ， 想 知道 为 什么 他 实验 室 

次 系统 里 的 计算 机 科学 家 比 生物 学 家 要 多 。 他 推断 说 ， 原 因 在 于 生 
物 学 已 成 为 一 门 信息 科学 ， 计 算 机 科学 家 对 如 何 分 析 信息 的 了 解 要 远 
远 超 过 生物 学 家 ， 而 生物 学 家 已 被 现代 技术 ， 例 如 基因 测序 ， 所 产生 
的 大 量 数 据 所 淹没 。 明 德 的 演讲 简直 古 为 我 做 了 最 好 的 铺 哥 ， 我 当时 
的 演讲 题目 是 关于 信息 如 何在 大 脑 中 神经 元 之 间 的 突 触 上 储存 的 。 

今天 ， 系 统 生物 学 吸引 了 许多 计算 机 科学 家 和 物理 学 家 共同 分 析 
和 理解 DNA 测 序 产生 的 信息 ， 以 及 由 RNA 和 和 蛋白质 控制 的 细胞 信号 。 
一 个 人 类 细胞 的 DNA 中 有 30 亿 个 碱 基 对 ， 含 有 细胞 生存 、 复 制 和 分 化 
所 需 的 所 有 信息 。 一 些 碱 基 对 是 制造 蛋白 质 的 模板 ， 基 因 组 的 其 他 部 
分 包含 一 个 抽象 代码 ， 对 发 育 过 程 中 使 用 的 基因 进行 调 证 ， 以 指导 


体 和 大 脑 的 构建 。 大 脑 的 构建 有 可 能 是 宇宙 中 难度 最 高 的 构建 项 目 ， 
它 征 由 DNA 中 和 其 入 的 算法 引导 的 ， 这 些 算法 协调 了 大 脑 数 百 个 不 同 部 
位 的 数 千 种 不 同类 型 神经 元 之 间 的 连接 。 


ATE RETR BESS A RON Bp BITE BSE 


由 基础 科学 研究 发 展 出 来 的 科技 ， 通 常 需要 50 年 才能 实现 商业 
化 。20 世 纪 初 ， 由 相对 论 和 量子 理论 带 来 的 重大 发 现 ， 到 20 世 纪 的 后 
半期 才 推 动 了 CD 播放 器 、GPS 以 及 电子 计算 机 的 诞生 。20 世 纪 50 年 代 
发 现 的 DNA 以 及 基因 序列 影响 了 当今 医药 和 综合 农业 领域 的 应 用 ， 这 
些 应 用 到 今天 仍 在 影响 经 济 的 发 展 。“BRAIN 计 划 ” 以 及 世界 上 其 他 大 
脑 研 究 项 目 带 来 的 发 现 ， 会 启发 50 年 后 的 应 用 ， 这 些 应 用 现在 看 上 去 
还 如 科幻 小 说 一 般 听 不 可 及 。( 岂 我 们 可 以 期 待 ， 到 2050 年 ， 人 工 智能 
会 拥有 能 和 我 们 大 脑 相 媲美 的 操作 系统 。 哪 些 公 司 、 哪 些 国家 会 掌握 
这 种 科技 ， 取 决 于 它们 现在 所 做 的 投资 和 所 下 的 赌注 。 
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在 所 谓 的 “克拉 克 的 第 三 定律 ”中 ， 阿 瑟 . 克 拉克 (Arthur C. Clarke) 说 过 这 样 一 句 名 
进 的 技术 几乎 都 与 魔法 无 异 。” (Any sufficientlyadvanced technology is 


16 
生命 与 意识 


当 弗 朗 西 斯 : 克 里 克 的 母亲 问 年 轻 的 克 里 克 他 想 探究 什么 样 的 科学 
问题 时 ， 他 告诉 她 ， 自 己 只 对 两 个 问题 感 兴趣 : 生命 的 奥秘 和 意识 的 
奥秘 。 舍 克 里 克 显然 对 重要 的 事物 有 着 敏锐 的 感觉 ， 但 他 当时 可 能 没 

意识 到 这 些 问 题 的 困难 程度 。 他 的 母亲 并 不 知道 ， 几 十 年 后 的 1953 
年 ， 她 的 儿子 和 詹姆斯: 沃 森 会 发 现 DNA 的 结构 ， 这 种 松散 的 线 状 体 最 
终 将 揭 开 生命 的 一 个 重要 谜团 。 但 克 里 克 (图 16-1) 并 不 满足 于 这 一 
成 就 。 

克 里 克 在 1977 年 加 入 索 尔 克 研 究 所 后 ， 重 新 拾 起 长 久 以 来 对 意识 
的 兴趣 。 他 决定 关注 视觉 意识 (visual awareness) 问题 ， 因 为 人 们 已 
经 对 大 脑 的 视觉 功能 区 有 了 深入 的 了 解 ， 而 了 解 视觉 感知 (visual 
a 的 神经 基础 也 将 为 探索 其 他 方面 意识 的 神经 基础 铺 平 道 
路 。 
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图 16-1 弗朗西斯 : 克 里 克 和 他 的 妻子 奥迪 尔 、 女 儿 杰 奎 琳 在 英国 剑桥 的 康 河上 划船 (拍摄 于 
1957 年 前 后 ) 。 图 片 来 源 : 索 尔 克 生 物 研 究 所 。 

20 世 纪 80 年 代 ， 生 物 学 家 对 意识 人 研究 投入 的 热情 日 渐 消 退 ， 但 这 
丝 宫 没有 影响 充 里 克 。 视 觉 感知 充满 了 难以 理解 的 幻想 和 谜团 ， 为 了 
解释 它们 在 解剖 学 和 生理 学 上 的 机 理 ， 克 里 元 推出 了 新 突 的 “探照灯 假 
说 ” (searchlight hypothesis) 。 加 神经 节 细胞 从 视神经 投射 到 丘脑 ， 
后 者 又 将 脉 神 传递 到 视觉 皮层 。 但 为 什么 神经 节 细 胞 不 能 和 直接 投射 到 
HABE? 克 里 克 指出 ， 从 皮层 到 丘脑 区 域 的 反馈 投射 瓯 像 探 照 灯 
一 样 ， 可 能 会 突出 显示 部 分 图 像 ， 以 供 进 一 步 处 理 。 


钢 沉 意识 


在 理解 意识 的 工作 中 ， 克 里 克 最 亲密 的 伙伴 是 加 州 理工 学 院 的 神 
经 科学 家 克里斯托弗 . 科 赫 ， 他 们 一 起 发 表 了 一 系列 探索 “和 意识 的 神经 
关联 ” (neural correlates of consciousness， 人 简称 NCC， 负 责 产 生意 识 觉 
知 状态 的 大 脑 结构 和 神经 活动 ) 的 论文 。( 司 对 于 视觉 意识 ， 这 意味 着 
要 发 现 大 脑 不 同 部 位 神经 元 的 放电 特性 与 视觉 感知 之 间 的 相关 性 。 克 
里 克 和 科 赫 提出 了 假设 ， 认 为 我 们 并 不 知道 在 初级 视觉 皮层 中 发 生 了 
什么 时 这 是 大 脑 皮层 第 一 个 从 视网膜 接收 输入 的 区 域 ， 我 们 只 知 
道 在 视觉 皮层 层级 结构 的 最 高 层 发 生 了 什么 〈 见 图 5-11) 。 这 种 假设 
的 可 能 性 来 目 对 双眼 竞争 的 研究 ， 即 对 两 只 眼睛 呈现 两 种 不 同 的 图 
案 ， 例 如 对 一 只 眼睛 显示 垂直 条 纹 而 对 邑 一 只 眼睛 显示 水 平 条 纹 ; 然 
而 ， 我 们 看 到 的 并 非 是 两 幅 图 像 的 混合 图 像 - 一 事实 上 ， 视 觉 感知 每 
隔 几 秒 束 会 在 不 同 图 像 之 间 突 然 发 生 翻转 。 初 级 视觉 皮层 中 对 每 只 有 眼 
青 做 出 反应 的 是 不 同 的 神经 元 ， 不 管 哪 个 图 像 是 被 有 意识 地 感知 到 
的 。 然 而 ， 在 视觉 的 较 高 层级 上 ， 许 多 神经 元 只 对 感知 到 的 图 像 产 生 
响应 。 因 此 ， 仪 因 一 个 神经 元 对 感知 放电 ， 就 说 它 是 感知 的 神经 天 


联 ， 未 免 太 过 和 草率。 显然 ， 在 分 布 于 视觉 层级 中 众多 互相 协调 工作 的 
活跃 神经 元 中 ， 我 们 只 知道 其 中 的 一 些 子 集 表 征 了 什么 。 


锡 禹 感知 的 过 程 


2004 年 ， 加 州 大 学 党 杉 矶 分 校医 学 中 心 的 科研 人 员 检 测 了 一 组 颖 
病 患 者 的 脑 部 ， 试 图 探索 疾病 发 作 的 病因 。 在 检测 过 程 中 ， 病 人 说 要 
求 观察 一 系列 名 人 照片 。 植 入 大 脑 记忆 中 心 的 电极 可 以 记录 患者 对 照 
片 的 啊 应 脉冲 。 其 中 一 名 患者 大 脑 的 一 个 神经 元 对 儿 幅 哈 莉 : 贝 瑞 的 照 
片 和 她 的 名 字 (图 16-2) 做 出 了 强烈 的 反应 ， 但 对 比尔 -克林顿 、 朱 莉 
娅 - 罗 伯 芯 的 照片 或 其 他 名 人 的 名 字 却 无 动 于 识 。 (里 同 时 ， 该 实验 也 发 
现 了 对 其 他 名 人 、 特 定 对 象 ， 以 及 悉尼 歌剧 院 等 建筑 物 能 做 出 反应 的 
神经 元 。 


(A) 


(B) 
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图 16-2 哈 莉 : 贝 瑞 细 胞 。 从 患者 的 海马 体 中 单个 神经 元 记录 下 的 对 照片 的 反应 。 每 张 照 片 下 显 
示 了 来 自 6 次 单独 试验 的 放电 脉冲 EER) ， 以 及 平均 值 (直方 图 ) 。 (A) ARJ I I 
的 照片 和 她 的 名 字 引 发 了 一 波 脉冲 ， (B) 而 其 他 女 演员 的 照片 和 她 们 的 名 字 却 没有 。 哈 莉 : 
贝 瑞 出 演 了 2004 年 的 动作 超级 英雄 电影 《 猫 女 》 (图 3) 。 图 片 来 源 : A. D. Friederici and W. 
Singer, “Grounding Language Processing on Basic Neurophysiological Principles, ”Trends in 
Cognitive Sciences 19, no. 6 (2015): 329-338, 图 1 » 


FAI AAP LOL oe tes (Itzhak Fried) 和 克 里 斯 
FEHB Ah a SE AT A SERMAT, TES OFF BE n] Dh ae al 
猴子 大 脑 中 的 单个 神经 元 时 ， 束 已 经 被 预测 到 了 “。 人 研究 人 员 认 为 ， 在 
大 脑 诺 层 视觉 区 域 的 层级 结构 中 ， 神 经 元 的 层级 越 高 ， 啊 应 特性 吏 越 
具体 。 很 有 可 能 的 情况 是 ， 顶 层 的 单个 神经 元 只 会 对 一 个 人 的 照片 产 


生 响 应 。 这 被 称 为 “祖母 细胞 假说 ” (grandmother cell hypothesis) ， 祖 
母 细胞 是 一 个 假想 的 脑 中 神经 元 ， 可 以 让 你 认 出 你 的 祖母 。 


更 为 戏剧 性 的 古 这 样 一 组 实验 ， 给 患者 展示 结合 了 两 个 熟 习 个 体 
照片 的 融合 图 片 ， 并 要 求 他 们 想象 其 中 一 个 人 (偏好 个 体 ) 的 形象 ， 
弱化 男 一 个 (竞争 个 体 ，， 同 时 记录 仅 对 单一 熟人 照片 产生 啊 应 的 神 
经 元 的 活动 。 尽 管 视觉 刺激 没有 改变 ， 但 受 试 者 能 够 增加 表征 “偏好 个 
体 ” 神 经 元 的 放电 速率 ， 同 时 降低 表征 “竞争 个 体 ” 神 经 元 的 放电 速率 。 
然后 ， 实 验 者 通过 控制 融合 图 片 中 两 种 照片 的 比例 (根据 神经 元 的 放 
电 比 例 ) 来 闭合 环 路 ， 受 试 者 便 可 以 通过 想象 两 个 个 体面 孔 的 比例 四 
来 控制 输入 。 该 实验 表明 ， 认 知 过 程 不 是 一 个 简单 的 被 动 过 程 ， 而 是 
依赖 于 记忆 和 内 部 注意 力 控制 的 主动 参与 。 


尽管 有 了 这 样 令 人 惊讶 的 证 据 ， 祖 母 细 胞 假说 仍然 不 太 可 能 完全 
解释 视觉 感知 的 过 程 。 根 据 该 假说 ， 当 细胞 处 于 活跃 状态 时 ， 你 会 感 
应 到 你 的 祖母 ， 所 以 它 不 应 该 被 任何 其 他 的 刺激 产生 啊 应 。 测 试 中 只 
有 几 百 张 照片 ， 所 以 我 们 的 确 不 知道 “ 哈 莉 : 贝 瑞 细 胞 ?有 多 么 强 的 选择 
性 。 其 次 ， 电 极 碰巧 记录 到 大 脑 中 唯一 的 哈 莉 : 贝 瑞 神 经 元 的 可 能 性 很 
低 ， 可 能 性 更 大 的 情况 是 ， 大 脑 中 有 成 和 上 万 个 这 样 的 细胞 ， 肯 定 还 
有 许多 对 其 他 著名 面孔 、 你 认识 的 人 、 你 能 识别 的 每 一 个 对 象 做 出 啊 
应 的 神经 元 的 副本 。 尽 管 大 脑 中 有 数 十 亿 个 神经 元 ， 但 并 不 足以 给 人 
们 认识 的 每 一 个 对 象 和 名 称 分 配 一 个 大 型 的 专用 神经 元 群 组 。 最 后 ， 
啊 应 只 是 与 感官 刺激 相关 ， 但 并 不 一 定 表明 其 中 存在 着 因 末 关系 。 神 
经 元 的 输出 ， 及 其 对 下 游行 为 的 影响 (参考 第 5 章 介 绍 的 投射 场 ， 也 同 
样 重要 。 不 过 ， 啊 应 的 选择 性 钙 惊 人 的 。 记 录 开 始 之 前 ， 病 人 说 要 来 
给 定 一 个 最 喜欢 的 名 人 ， 所 以 可 能 哈 莉 ' 贝 珊 在 病人 的 脑 中 被 过 度 表征 
[fe 
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元 如 何 共同 感知 和 决策 提供 了 另 一 种 理论 。 人 号 在 猴子 的 记录 中 ， 和 刺激 
和 依赖 任务 的 信号 广泛 分 布 于 大 量 神经 元 中 ， 每 一 个 神经 元 都 会 为 刺 


激 和 任务 细节 特征 的 不 同 组 合 做 出 响应 。( 轩 不 久之 后 ， 我 们 将 有 可 能 
记录 数 百 万 个 神经 元 并 操纵 它们 的 放电 速度 ， 区 分 不 同类 型 的 神经 元 
和 它们 彼此 相连 的 方式 。 这 可 能 会 引出 超越 祖母 细胞 的 理论 ， 让 我 们 
能 够 更 深入 地 理解 神经 元 群体 的 活动 如 何 引发 思考 、 情 绪 、 计 划 和 决 
策 。 当 然 ， 神 经 元 表征 面孔 和 对 象 的 方式 可 能 不 止 一 种 。 随 着 新 的 记 
录 技 术 的 出 现 ， 我 们 应 该 很 快 就 会 知道 答案 。 乌 

自 20 世 纪 80 年 代 以 来 ， 我 们 已 经 在 经 过 训练 的 含有 一 层 隐藏 单元 
的 神经 网 络 模 型 中 了 解 到 ， 并 且 最 近 在 深度 网 络 中 也 认识 到 ， 神 经 网 
络 中 每 个 输入 的 活动 模式 呈 高 度 分 散 性 分 布 ， 其 方式 在 性 质 上 类 似 于 
皮层 中 神经 元 群 组 的 各 种 响应 (图 9_2) 。 储 分 布 表征 可 以 用 来 识别 
相同 对 象 的 多 个 版 本 ， 而 且 针 对 同一 组 神经 元 ， 也 可 以 通过 对 它们 的 
输出 添加 不 同 的 权重 来 识别 许多 不 同 的 对 象 。 对 神经 网 络 中 的 单个 隐 
藏 单元 进行 分 析 ， 就 像 神 经 生理 学 家 记录 视觉 皮层 中 的 神经 元 一 样 ， 
有 时 会 发 现 一 个 靠近 顶层 的 模拟 神经 元 对 其 中 一 个 对 象 产生 了 特定 的 
偏好 。 但 是 ， 因 为 剩 下 的 神经 元 携带 了 表征 对 象 的 宛 余 信 号 ， 所 以 当 
这 样 的 单元 被 切除 时 ， 神 经 网 络 的 性 能 并 不 会 发 生 明显 的 变化 。 神 经 
网 络 在 受到 损害 的 情况 下 仍 能 保持 稳健 的 性 能 ， 是 网 络 与 大 脑 本 身 的 
架构 与 数字 计算 机 的 架构 之 间 的 主要 区 别 。 


需要 多 少 皮层 神经 元 才能 区 分 例如 脸 部 之 类 的 许多 相似 对 象 呢 ? 
从 成 像 研 究 中 ， 我 们 知道 人 脑 的 几 个 区 域 对 人 脸 能 够 做 出 反应 ， 有 些 
区 域 具有 高 度 的 选择 性 。 但 是 ， 在 这 些 区 域内 ， 任 何 单个 面孔 的 信息 
都 广泛 分 布 在 许多 神经 元 中 。 加 州 理工 学 院 的 草 蜂 (Doris Tsao) 在 猴 
子 的 大 脑 皮层 神经 元 中 ， 记 录 到 对 面部 的 选择 性 响应 ， 并 表明 可 以 通 
过 结合 来 自 200 个 面部 细胞 (所 有 面部 选择 性 神经 元 的 相对 较 小 的 子 
集 ) 的 输入 来 对 面部 特征 进行 重建 © 


锡 禹 感知 的 时 机 


视觉 意识 的 男 一 方面 ， 是 大 脑 努 力 记录 发 生 在 特定 时 间 的 事件 ， 
例如 风光。 视觉 皮 层 中 神经 元 对 闪光 视觉 刺激 产生 啊 应 的 时 间 延 迟 从 
25 蝇 秒 到 100 室 秒 不 等 ， 这 些 延 迟 通常 发 生 在 皮层 同一 区 域内 。 尽 管 这 
样 ， 我 们 仍 可 以 确定 时 间 差 在 40 曼 秒 内 发 生 的 两 次 内 光 的 次 序 ， 以 及 
时 间 差 小 于 10 训 秒 的 两 次 声音 的 次 序 。 让 问题 更 加 复杂 的 是 ， 视 网 膜 
中 的 处 理 也 需要 一 定 的 时 间 。 这 一 时 间 并 不 是 固定 的 ， 而 是 取决 于 内 
光 的 强度 ， 所 以 即便 微弱 内 光 和 强烈 内 光 同 时 发 生 ， 微 弱 内 光 中 来 日 
视网膜 的 首 个 脉冲 的 到 达 时 间 与 强烈 内 光 相 比 ， 也 会 有 一 个 延迟 。 这 
就 引 出 了 一 个 问题 ， 即 为 什么 视 千 感知 似乎 具有 一 至 性， 虽然 从 整个 
皮层 活动 的 时 间 和 空间 分 布 模 式 来 看 并 不 明显 。 

当 我 们 进行 跨 模 态 (cross-modal) 比较 时 ， 同 时 性 问题 变 得 更 加 
令 人 困惑 。 你 看 到 一 个 人 在 砍 树 ， 假 设 你 离 得 足够 近 ， 即 使 声速 比 光 
速 慢 得 多 ， 你 也 可 以 同时 看 到 并 听 到 每 次 径 头 对 树木 的 砍 击 。 而 且 随 
着 与 树 的 距离 不 断 增加 ， 同 时 性 的 幻觉 仍然 维持 着 ，( 浓 直到 视觉 和 听 
党 信 号 到 达 你 的 大 脑 的 时 间 差 大 于 80 旱 秒 时 ， 我 们 就 不 再 认为 声音 二 
砍 击 的 动作 同时 发 生 (此 时 的 距离 大 约 为 100 英 尺 ) 。 

探索 与 时 间 相 关 的 视 沉 行为 的 研究 人 员 发 现 了 男 一 种 被 称 为 “办 光 
一 滞后 效应 ” (flash-lag effect) 的 现象 。 该 现象 可 以 表现 为 飞 过 头顶 的 
飞机 内 烁 的 尾 打 和 机 尾 看 起 来 不 太一 致 一 一 内 区 的 位 置 似乎 落后 于 机 
尾 。 另 一 种 常见 的 现象 是 在 足球 比赛 中 ， 当 一 名 跑 动 中 的 运动 员 看 起 
来 像 在 足球 CASE) 前 面 时 ， 这 可 能 会 引起 助理 裁判 员 的 越位 判罚 
-这 名 助理 裁判 员 并 未 做 出 幻觉 补偿 辐 。 这 一 现象 可 以 在 实验 室 
通过 用 视觉 刺激 (如 图 16-3 所 示 ) 来 进行 研究 。 在 闪光 湛 后 效应 中 ， 
内 光 和 位 于 同一 位 置 的 移动 物体 之 间 似 乎 发 生 了 错位 。 

对 这 种 现象 存在 一 种 主流 的 解释 一 在 直觉 上 更 说 得 通 ， 而 且 有 
一 些 来 和 目 大 脑 实验 记录 的 证 据 一 是 大 脑 预 测 了 运动 点 将 在 短 时 间 之 
后 出 现在 哪个 位 置 。 但 是 感知 实验 已 经 表明 ， 这 并 不 能 解释 内 光 请 后 
效应 ， 因 为 内 光 时 间 引 起 的 感知 取决 于 内 光 后 80 训 秒 内 发 生 的 事件 ， 


而 不 是 闪光 之 前 发 生 的 事件 (先前 发 生 的 事 会 被 大 脑 用 来 做 出 预 
测 ) 。 人 时 这 种 对 闪光 澡 后 效应 的 解释 ， 意 味 着 大 脑 是 “后 发 性 的 > 而 
非 “预测 性 的 ”， 也 就 是 说 ， 大 脑 不 断 修改 历史 ， 使 有 意识 的 现在 与 未 
来 保持 一 致 。 这 是 我 们 的 大 脑 如 何 基于 嘲 杂 和 不 完整 的 数据 产生 似 是 
WA 
演 中 。 


实际 


图 16-3 闪光 滞后 效应 。 (上 图 ) 一 个 圆 环 从 左 向 右 移 动 (A) 。 当 它 通过 视野 的 中 心 时 ， 
en (黄色 ) 。 (RA) 被 试 者 报告 ， 在 闪光 时 图 环 似乎 侦 移 到 了 右 侧 。 图 片 来 
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大 脑 成 像 可 以 在 我 们 感知 事物 时 为 我 们 提供 大 脑 活 动 的 全 局 图 。 
根据 实验 证 据 ， 人 研究 人 员 提 出 了 一 个 非常 有 吸引 力 的 假设 ， 即 当 皮 层 
前 部 (这 部 分 对 计划 和 制定 决策 非常 重要 ) 的 大 脑 活 动 达到 立 值 水 


平 ， 并 开启 反馈 回路 时 ， 我 们 才 会 有 意识 地 注意 到 某 些 事 情 ORR 
具有 一 定 的 启发 性 ， 但 这 些 观 察 结果 并 不 具有 说 服 力 ， 因 为 它们 并 不 
构成 因果 关系 ， 而 只 是 表明 了 相关 性 。 如 果 “ 意 识 的 神经 相关 ”是 意识 
状态 的 原因 ， 那 么 应 该 可 以 通过 改变 “意识 的 神经 相关 ”来 改变 意识 状 
态 。 曹 蜂 在 她 2017 年 的 实验 中 证 实 了 这 一 点 ， 通 过 刺激 猴子 的 视觉 皮 
层 中 的 脸 部 识别 功能 区 ， 她 能 够 干扰 它们 对 脸 部 的 辨别 能 力 。( 晤 当 对 
an: <a ae Pt 


最 近 ， 诸 如 光 遗 传 学 时 等 新 技术 已 经 能 够 被 用 于 选择 性 地 操纵 神 
经 元 的 活动 ， 从 而 对 NCC 的 因果 关系 进行 测试 。 如 果 认 知 状态 与 高 度 
分 散 的 活动 模式 相对 应 ， 这 样 的 测试 难度 可 能 会 很 大 ， 但 原则 上 ， 这 
种 方法 可 以 揭示 意识 中 的 感知 和 其 他 特征 是 如 何 形成 的 。 乌 


钢 澳 搜索 的 机 理 


视觉 搜索 任务 依赖 于 目下 而 上 的 感官 处 理 ， 以 及 目 上 而 下 由 期 望 
驱动 的 注意 力 处 理 (图 16-4A) 。 这 两 种 类 型 的 处 理 在 大 脑 中 相互 交 
织 痢 进行， 难以 区 分 。 但 最 近 ， 人 们 开发 了 一 种 新 颖 的 搜索 任务 来 葵 
试 将 它们 分 开 。( 思 参与 者 坐 在 空白 的 屏幕 前 ， 他 们 的 任务 是 用 目光 扫 
视屏 幕 ， 找 到 一 个 隐藏 目标 的 位 置 。 当 他 们 的 目光 保留 在 目标 附近 
时 ， 会 听 到 奖励 音 。 隐 藏 目标 的 位 置 在 每 次 试验 中 都 会 发 生变 化 ， 并 
且 服 从 高 斯 分 布 “一 种 钟 形 曲线 ， 由 其 峰值 和 视 度 定义 ) ， 但 在 一 个 
试验 环节 内 保持 不 变 ， 然 而 参与 者 并 不 了 解 这 一 信息 (图 16-4D) 。 


在 试验 环节 开始 时 ， 参 与 者 并 没有 任何 先 验 知识 来 指导 他 们 的 搜 
索 。 一 旦 获得 奖励 ， 他 们 就 可 以 使 用 该 反馈 来 协助 下 一 次 试验 。 随 着 
试验 的 进行 ， 参 与 者 通过 制定 隐 着 目标 分 布 的 预期 ， 来 指导 未 来 的 搜 
索 ， 以 提高 成 功率 。 经 过 大 约 十 几 次 的 试验 后 ， 参 与 者 的 视觉 注意 力 


缩小 到 了 目标 出 现 概 率 融 的 区 域 。 图 16-4D 显 示 了 在 所 有 参与 者 映 上 
出 现 的 这 种 效应 的 特征 。 随 着 实验 不 断 推进 ， 搜 索 区 域 的 范围 开始 大 
幅 缩小 。 令 人 惊讶 的 是 ， 尽 管 被 试 者 在 儿 次 试验 后 的 第 一 次 扫 视 总 是 
能 到 达 隐 藏 目标 分 布 的 中 心 ， 但 他 们 中 许多 人 并 没有 办 法 措 述 出 是 如 
何 做 到 这 一 点 的 。 
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图 16-4 学 习 朝 哪里 看 。 (A) 有 经 验 的 行人 事先 知道 在 街道 场景 中 寻找 路 标 、 汽 车 和 人 行道 
Whe; (B) 在 一 片 草 地 上 苋 食 的 鸭子 (C) 屏幕 的 表征 图 像 与 试验 期 间 学 习 的 隐藏 目标 
分 布 区 域 进行 的 个 加 ， 以 及 来 自 参 与 者 M 的 三 次 试验 的 目光 轨迹 样本 。 每 个 试验 中 第 一 次 目 
光 停 留 的 区 域 用 黑色 记号 标记 。 最 终 获 得 奖励 的 注视 位 置 以 带 阴 影 的 灰色 点 进行 标记 。 


(D) 对 目光 注视 过 的 屏幕 区 域 的 采样 ， 从 在 早期 试验 中 遍布 了 整个 屏幕 〈 浅 灰色 圆圈 ;前 
五 个 试验 ) ， 缩 小 到 接近 高 斯 整数 分 布 大 小 和 位 置 的 区 域 [正方 形 ， 颜 色 与 后 面试 验 C 中 给 出 
的 概率 成 比例 (红色 圆圈 ， 试 验 32-39) ] 。 图 片 来 源 : L. Chukoskie, J. Snider, M. C. Mozer, 
R. J. Krauzlis, and T. J.Sejnowski, “Learning Where to Look for a Hidden Target”， 图 1。 


这 些 实验 表明 ， 大 脑 无 意识 的 控制 是 由 经 验 引 导 的 。 通 过 消除 视 
觉 输 入 ， 可 以 独立 地 研 守 无 意识 过 程 。 这 项 搜索 任务 涉及 的 大 脑 区 域 
包括 视觉 皮层 和 上 丘 ， 它 们 分 别 控制 着 视野 中 对 象 的 立体 形 貌 分 布 ， 
以 及 分 别 将 视线 指向 视觉 目标 ， 与 眼 动 系统 的 其 他 部 分 紧密 合作 。 学 
习 过 程 也 涉及 基 飞 神经 太 ， 这 是 消 椎 动物 大 脑 的 一 个 重要 组 成 部 分 ， 
能 通过 强化 学 习 来 学 习 按 顺序 发 生 的 动作 。( 因 预期 和 收 到 的 奖励 之 间 
的 过 异 ， 表 现 为 中 脑 部 位 的 多 巴 胺 神经 元 放电 频率 的 瞬时 增加 ， 从 而 
能 够 调节 突 触 可 塑性 ， 并 在 无 意识 层面 影响 决策 和 计划 的 制定 (已 在 
第 10 章 中 讨论 过 ) 


创造 意识 比 理解 意识 更 容易 


在 去 世 之 前 ， 弗 朗 西 斯 . 克 里 克 还 邀请 我 到 他 家 中 讨论 屏 状 体 
(claustrum) ， 这 个 皮层 下 的 神秘 细胞 薄 层 接收 来 自 许 多 皮层 区 域 的 
投射 ， 然 后 再 反 向 投射 回去 。 尽 管 克 里 克 当 时 已 身 患 绝症 ， 但 仍然 专 
注 于 完成 他 的 最 后 一 篇 论文 ， 即 屏 状 体 因 其 中 心地 位 而 负责 意识 统一 
的 假说 。 只 有 少数 研究 人 员 曾 研究 过 屏 状 体 ， 他 几乎 给 他 们 中 的 每 个 
人 都 打 过 电话 ， 寻 求 进一步 的 信息 。 这 次 拜访 是 我 最 后 一 次 见 到 他 。 
弗朗西斯 于 2004 年 7 月 28 日 去 世 时 ,仍然 在 努力 撰写 他 最 后 一 篇 论文 
(的 手稿 ， 试 图 完成 他 对 意识 起 源 的 研究 。 


在 他 和 和 詹姆斯- 沃 森 于 1953 年 发 现 DNA 结 构 的 50 年 后 ， 人 类 基因 组 
测序 的 项 目 完成 了 。 克 里 克 告 诉 我 ， 他 从 来 没有 想 过 人 类 能 够 完成 这 
一 壮举 。50 年 后 ， 我 们 距离 探 清 意识 问题 还 有 多 远 呢 ? 届 时 ， 我 们 将 
拥有 与 我 们 互动 的 机 人 絮 ， 就 像 我 们 现在 通过 语 首 、 手 势 和 面部 表情 与 
他 人 互动 一 样 。 创 造 意识 要 比 完全 理解 它 来 得 容易 。 


我 怀疑 ， 我 们 是 否 可 以 通过 首先 了 解 无 意识 的 处 理 过 程 一 我 们 
看 到 、 听 到 和 行动 时 认为 理所当然 的 一 切 一 “来 加 快 进度 。 我 们 已 经 
在 理解 激励 系统 方面 取得 了 进展 (激励 系统 对 我 们 如 何 做 决定 产生 了 
强烈 的 影响 ) ;还 有 注意 力 系统 (这 些 系 统 有 助 于 指导 我 们 在 现实 世 
界 中 搜寻 信息 ) 。 随 着 对 管理 感知 、 决 策 和 规划 的 大 脑 机 制 的 深入 了 
解 ， 理 解 意识 这 个 问题 可 能 会 像 《爱丽 丝 漫游 奇 境 记 》 中 的 柴 郡 猫 一 
样 消失 ， 只 留 下 一 个 大 大 的 笑容 。( 针 
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17 
进化 的 力量 


研究 生命 起 源 的 莱 斯 利 : 奥 格 尔 (Leslie Orgel， 图 17-1， 右 ) 是 一 
位 毕业 于 牛津 大 学 的 化 学 家 ， 他 是 我 在 索 尔 克 人 研究 所 多 年 的 同事 ， 也 
是 我 见 过 的 最 聪明 的 科学 家 之 一 。 每 周 五 的 教师 午餐 时 与 他 的 讨论 总 
是 让 我 意犹未尽 。 生 命 的 起 源 可 以 追溯 到 数 十 亿 年 前 ， 众 所 周知 ， 那 
时 的 地 球 与 今天 大 不 相同 ， 环 境 条 件 十 分 苛刻 ， 大 气 中 的 氧气 很 少 ， 
并 不 适宜 生命 存活 。 上 古 细菌 早 于 细菌 出 现在 地 球 上 ， 但 在 古 细菌 之 前 
出 现 的 又 是 什么 呢 ? 我 们 现在 已 经 知道 ,DNA 普遍 存在 于 所 有 细胞 
中 ， 那 在 DNA 形 成 之 前 就 存在 的 遗传 物质 义 是 什么 昵 ?1968 年 ， 莱 斯 
利 : 奥 格 尔 和 弗朗西斯 : 克 里 克 推测 ， 由 细胞 中 的 DNA 衍 生 而 来 的 RNA 
可 能 是 DNA 的 前 身 ， 但 这 就 要 求 RNA 能 够 自我 复制 。 关 于 这 一 推测 的 
证 据 ， 来 自 可 以 催化 RNA 反 应 的 基于 RNA 酶 的 核 酶 汪 ) (ribozyme) 。 
今天 该 领域 的 大 多 数 研 究 人 员 都 认为 ， 所 有 生命 都 来 自 早 期 的 "RNA 世 
界 ”， 这 一 点 是 完全 有 可 能 的 。 但 RNA 又 是 从 哪里 来 的 呢 ? 遗憾 的 是 ， 
我 们 并 没有 什么 证 据 可 以 继续 追溯 下 去 。 


图 17-1 1992 年 ， 索 尔 克 研究 所 的 弗朗西斯 :元 里 克 〈 左 ) 和 莱 斯 利 : 奥 格 尔 〈 右 ) 分 别 在 意识 的 
起 源 和 生命 的 起 源 领 域 进行 着 开拓 性 的 研究 。 图 片 来 源 : REAR ° 


大 目 然 比 我 们 聪明 


一 直 以 来 ， 人 们 壮志 接受 的 所 谓 “ 真 理 ”， 总 是 不 断 地 被 惊人 的 发 
现 所 申 履 。 我 们 抬 起 涉 ， 看 到 太阳 在 围绕 地 球 转动 ， 但 实际 上 是 地 球 
在 绕 着 太阳 转 。 进 化 论 让 我 们 认 清 了 人 类 的 发 展 历 程 ， 尺 管 到 了 今 
天 ， 很 多 人 仍然 难以 接受 这 一 理论 。 许 多 年 后 ， 我 们 的 后 代 将 回顾 我 
们 生活 的 这 个 时 代 ， 并 认为 我 们 对 智能 的 直觉 ， 征 过 于 简化 了 的 ， 这 
种 直觉 阻碍 了 人 工 知 能 后 续 50 年 的 进步 。 正 如 奥 格 尔 的 第 二 定律 所 
述 ， 进 化 比 你 聪明 。 


我 们 的 意识 觉 知 只 是 冰山 一 角 ， 我 们 大 脑 的 大 部 分 活动 依然 神秘 
AU, ， 无 法 进行 目 我 反思 。 我 们 用 “注意 力 ” 和 "意图 ”这些 词 来 描述 我 


们 的 行为 ， 但 这 些 都 是 含糊 的 概念 ， 隐 藏 了 大 脑 活动 过 程 的 内 在 复杂 
性 。 基 于 直觉 大 众 心理 学 的 人 工 乔 能 的 发 展 迟 迟 得 不 到 令 人 满意 的 成 
果 。 我 们 的 眼睛 能 看 到 东西 ， 但 没 人 知道 其 育 后 的 原因 。* 我 思 故 我 
在 ”， 但 思考 育 后 的 机 制 仍 是 一 个 谜 。 大 目 然 回 我 们 揭示 大 脑 如 何 运 
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正如 第 2 章 所 指出 的 那样 ， 我 们 拥有 高 度 发 达 的 视觉 系统 ， 但 这 并 
不 能 让 我 们 成 为 视觉 领域 的 专家 。( 电 许多 人 甚至 都 没有 意识 到 ， 我 们 
的 眼 部 存在 一 个 眼中 央 趾 ， 其 能 提供 的 清晰 视角 只 有 1 度 的 弧度 ， 相 当 
于 以 一 臂 为 半径 ， 拇 指 长 度 为 弧 长 所 对 应 的 角度 ， 另 外 ， 我 们 在 眼中 
央 凹 之 外 什么 都 看 不 到 ， 几 乎 相当 于 法 定 盲 人 舍 ) 。 我 兽 经 向 我 的 母亲 
指出 这 一 点 ， 她 说 她 不 相信 我 ， 因 为 她 前 后 左右 都 看 得 很 清楚 。 由 于 
我 们 可 以 迅速 重新 定位 视觉 目标 ， 所 以 产生 了 一 种 在 目光 所 及 之 处 都 
能 看 得 很 清楚 的 错觉 。 你 知道 当 你 凝视 一 个 目标 时 ， 目 光 会 以 每 秒 三 
次 的 频率 在 目标 上 游 移 吗 ? 余 光 (peripheral vision) 可 能 具有 较 低 的 
空间 分 辩 率 ， 但 对 亮度 和 运动 的 变化 非常 敏感 。 在 视觉 皮层 中 ， 与 识 
别 目标 的 主要 回路 相 区 别 的 另 一 个 主要 回路 ， 就 负责 识别 视线 在 空间 
中 的 移动 。 

当 计算 机 视觉 领域 的 先驱 开始 设计 视觉 功能 时 ， 他 们 的 目标 是 从 
图 像 中 创建 出 一 个 完整 的 世界 内 部 模型 ， 而 这 个 目标 已 经 被 证 明 是 难 
以 实现 的 。 但 是 ， 一 个 完整 而 准确 的 模型 对 于 大 多 数 实 际 目的 来 说 可 
能 是 不 必要 的 ， 而 且 考虑 到 目前 的 摄像 机 取样 率 很 低 ， 这 似乎 更 不 可 
能 实现 。 

根据 心理 物理 学 、 生 理学 和 解剖 学 的 证 据 ， 帕 特 里 夏 . 丘 奇 兰 德 、 
神经 心理 学 家 拉 马 钱 德 兰 (V. S. Ramachandran) 和 我 得 出 的 结论 是 ， 
大 脑 只 表征 世界 上 有 限 的 一 部 分 目标 ， 即 执行 手头 任务 所 需要 的 那 部 
分 。 仿 这 也 使 得 强化 学 习 更 容易 减少 所 需要 的 、 可 能 有 助 于 获得 奖励 
的 感官 输入 的 数量 。 视 觉 的 明显 模块 化 (与 其 他 感官 处 理 流 相 比 ， 视 


觉 信 息 有 更 高 的 分 离 度 ) 也 是 一 种 错觉 。 视 觉 系统 集成 了 来 自 其 他 渠 
道 的 信息 ， 包 括 来 目 奖 励 系统 的 指示 场景 中 目标 价值 的 信号 。 机 动 系 
统 通过 积极 地 重新 定位 传 感 咒 来 寻找 信息 ， 例 如 移动 目光 ， 以 及 在 某 
些 物种 中 ， 通 过 移动 耳 打 来 收集 可 能 导致 奖励 行为 的 信息 。 
大 脑 通 过 对 环境 的 逐步 适应 而 发 生 进 化 ; 大 目 然 无 法 从 零 开 始 ， 

而 必须 通过 修改 各 个 零 部 件 来 维持 现 有 物种 的 生存 。 约 朝 : 奥 尔 曼 
(John Allman) 在 他 的 著作 《进化 脑 》 (Evolving Brains) @— e 
Hi T FEST AR RE ERA EA, HEMT- REELE 
Ea) 锅炉 房 的 经 历 。 他 注意 到 ， 在 一 组 真空 管 劳 边 有 一 排 排 复 邓 的 
小 型 气 送 管 ， 劳 边 是 不 同年 代 的 计算 机 控制 系统 。 由 于 该 电厂 需要 连 
续 供 电 ， 因 此 无 法 在 每 次 对 技术 进行 更 痢 换 代 时 ， 都 直接 关闭 旧 系 统 
并 将 其 改装 为 新 系统 。 于 是 旧 的 控制 系统 束 被 留 在 了 原 位 ， 而 新 的 控 
制 系统 被 集成 到 了 其 中 。 同 样 ， 随 着 大 脑 的 不 断 变 化 ， 大 目 然 并 不 能 
抛 痉 上 有 旧 的 大 脑 系 统 ， 而 是 根据 当前 的 发 展 计 划 进 行 调整 ， 偶 尔 也 会 增 
加 一 层 新 的 控制 。 基 因 复 制 ， 是 引入 能 够 变异 出 新 功能 的 基因 副本 的 
最 佳 途径 。 全 基因 组 复制 的 情况 曾经 也 发 生 过 ， 而 这 可 能 会 导致 一 个 
全 新 物种 的 诞生 。 


认 知 科学 的 兴起 


20 世 纪 30 年 代 ， 人 研究 学 习 行 为 的 心理 学 家 把 行为 看 作 将 感官 输入 
转化 为 运动 输出 的 过 程 ， 并 目 称 为 “行为 主义 者 ”。 关 联 学 习 征 行为 主 
义 的 研究 重点 ， 许 多 学 习 规 律 在 通过 用 不 同 的 奖励 机 制 训练 动物 时 被 
陆续 发 现 。 哈 佛 大 学 的 B.F 斯 金 纳 是 这 一 领域 的 领导 者 ， 他 撰写 了 几 
本 畅销 书籍 来 解释 他 的 发 现 对 社会 造成 的 影响 。( 四 当时 有 关 行 为 主义 
的 大 众 出 版 物 非 常 受 欢迎 。 


1971 年 ， 著 名 语言 学 家 诺 姆 . 乔 姆 斯 基 (图 17_2) 在 《纽约 书评 》 
(图 17-3) 上 发 表 了 一 篇 全 面 反击 行为 主义 的 文章 ， 矛 头 直 指 斯 金 
纳 。( 尖 下 面 是 他 的 论点 中 关于 语言 方面 的 一 段 摘录 : 


图 17-2 1977 年 的 诺 姆 : 乔 姆 斯 基 。 他 于 1971 年 在 《纽约 书评 》 上 撰写 了 文章 《针对 斯 金 纳 的 驶 
厢 》。 乔 姆 斯 基 的 论文 对 一 代 认 知心 理学 家 产生 了 深远 的 影响 。 他 们 开始 将 符号 处 理 作 为 认 
知 的 概念 框架 ， 而 大 脑 发 育 和 学 习 在 认 知 和 智力 中 的 重要 作用 则 在 他 们 的 眼中 大 打折 扣 。 图 
片 来 源 : Hans Peters/Anefoto ° 
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图 17-3 诡 姆 : 乔 姆 斯 基于 1971 年 在 《纽约 书评 》 中 择 击 斯 金 纳 的 标题 。 乔 姆 斯 基 的 文章 影响 了 
一 代 科学 家 ， 诱 导 他 们 放弃 了 对 行为 的 学 习 ， 并 采用 符号 处 理 作为 解释 认 知 的 方式 。 但 使 用 
符号 方法 ， 人 工 智 能 从 未 出 现 能 够 达到 认 知 水 平 的 表现 。 斯 金 纳 在 强化 学 习 领域 引领 着 正确 
的 方向 ， 但 却 受到 了 乔 姆 斯 基 的 嘲讽 ， 当 今 最 引 人 注 目的 AI 应 用 是 基于 学 习 ， 而 非 逻辑 。 图 
片 来 源 ，《 纽 约 书评 》。 


把 一 些 我 从 来 没有 听 过 或 说 过 的 英语 句子 ， 而 不 是 中 文句 子 说 
成 属于 我 的 “语录 ” (只 因为 我 说 前 者 的 “概率 ”更 大 ) ， 这 是 什么 意 
思 ? 斯 金 纳 主义 在 讨论 中 涉及 这 一 点 时 ， 一 直 诉 诸 * 相 似 性 ?或 “ 泛 
化 "， 但 始终 没有 精确 地 描述 新 句子 与 熟悉 的 例子 如 何 “ 相 似 *"， 或 
从 例子 中 如 何 “ 泛 化 * 的 方式 。 这 种 失败 的 原因 很 简单 。 就 目前 所 了 
解 的 信息 而 言 ， 相 关 属 性 只 能 用 描述 有 机 体内 部 假定 状态 的 抽象 理 
ib (例如 语法 ) 来 表达 ， 而 这 种 理论 被 从 斯 金 纳 的 “科学 理论 ”中 先 
验 地 排除 了 。 由 此 导致 的 直接 后 果 就 是 ， 只 要 讨论 涉及 事实 世界 ， 
斯 金 纳 主义 就 必然 会 陷入 神秘 主义 (不 能 解释 的 “相似 性 * 和 无 法 描 
述 的 “ 泛 化 ”) 。 尽 管 在 语言 中 情况 可 能 更 为 清楚 ， 但 没有 理由 认 
为 ， 人 类 行为 的 其 他 方面 也 会 落 入 斯 金 纳 用 先 验 限制 了 的 “科学 ” 体 
Rope 


以 今天 的 角度 ， 我 们 可 以 看 到 乔 姆 斯 基 明 日 了 问题 的 关键 ， 但 他 
并 不 了 解 学 习 的 力量 。 深 上 度 学 习 已 经 同 我 们 展示 了 ， 像 大 脑 本 喘 的 神 
经 网 络 那样 ， 模 型 神经 网 络 能 够 做 到 被 乔 姆 斯 基 解 释 为 “神秘 主义 ”的 
那 种 “ 泛 化 ”>， 并 且 可 以 经 过 训练 ， 选 择 性 地 识别 多 国语 言 并 进行 翻 
译 ， 为 冬 像 生成 在 语法 上 无 可 挑剔 的 标题 。 最 具 讽刺 意味 的 是 ， 机 天 
学 习 已 经 解决 了 目 动 解析 语句 的 问题 ， 尽 管 计 算 语 言 学 家 做 出 了 艰 兰 
的 努力 ， 但 乔 姆 斯 基 的 句法 “抽象 理论 ”从 来 没有 解答 过 这 个 问题 。 当 
与 斯 金 纳 开 创 的 强化 学 习 结 合 起 来 时 ， 机 器 学 习 就 可 以 解决 需要 做 出 
一 系列 选择 以 实现 目标 的 复杂 问题 。 这 是 解决 问题 的 实质 ， 也 是 智能 
的 基础 。 


乔 姆 斯 基 的 文章 充满 了 吕 视 ， 其 影响 也 远 远 超过 了 对 斯 金 纳 的 择 
击 : 它 挑战 了 ， 甚 至 驱 斥 了 将 学 习作 为 理解 认 知 的 一 种 方式 。 这 在 20 
世纪 70 年 代 对 认 知 心理 学 产生 了 决定 性 的 影响 。 乔 姆 斯 基 所 持 观 点 的 
核心 在 于 ， 根 本 无 法 想象 《至 少 对 乔 姆 斯 基 而 言 ) 关联 式 学 习 能 够 产 
生 一 种 像 语言 那样 复杂 的 认 知 行为 。 但 请 注意 ， 这 个 论点 和 是 基于 无 知 
一 一 仅 因 为 世界 顶尖 的 语言 学 家 说 他 无 法 想象 某 件 事 ， 并 不 能 否定 这 


件 事 发 生 。 但 乔 姆 斯 基 的 言辞 与 70 年 代 的 时 代 精 神 产 生 了 共鸣 ， 因 此 
颇 受 追捧 。 到 了 20 世 纪 80 年 代 ， 对 认 知 进行 符号 处 理 已 成 为 主流 方 
法 ， 并 为 一 个 名 为 “ 认 知 科学 ”的 新 领域 打下 了 基础 一 一 认 知 科学 是 认 
知心 理学 、 语 言 学 、 哲 学 和 计算 机 科学 的 寝 合体 。 神 经 科学 则 像 是 认 
知 科学 的 小 兄弟 ， 在 20 世 纪 90 年 代 认 知 神经 科学 兴起 前 ， 一 直 或 多 或 
少 地 受到 忽视 。 


不 能 把 语言 问题 只 留 给 语言 学 家 


此 后 ， 乔 姆 斯 基 还 多 次 使 用 了 同样 的 修辞 论证 ， 其 中 最 著名 的 是 
ft ETE" (poverty of the stimulus) 对 先天 语言 能 力 的 论证 ， 
全 其 中 断言 婴儿 在 听觉 上 获取 不 到 足够 的 语言 范例 来 学 习 句 法 的 规 
则 。 但 是 ， 婴 儿 并 不 是 一 台 从 外 界 得 到 一 串 无 形 符号 的 计算 机 。 事 实 
上 ， 一 个 婴儿 沉浸 在 一 个 充满 丰富 感官 体验 的 世界 中 ， 并 会 以 惊人 的 
束 度 了 解 世界 的 本 质 。( 岂 这 个 世界 充满 了 与 声音 有 关 、 意 义 非凡 的 体 
验 ， 这 些 体验 始 于 子宫 ， 是 一 种 无 监督 学 习 。 在 这 一 基础 上 ， 语 言 开 
台 形 成， 首先 是 嘱 嘱 呀 呀 ， 然 后 是 单个 词汇 ， 以 及 后 来 语法 正确 的 单 
词 序 列 。 先 天 习 得 的 并 不 是 语法 ， 而 是 能 够 从 经 验 中 学 习 语 言 ， 表 现 
出 在 丰富 的 认 知 语 境 中 吸收 话语 的 高 阶 统计 特性 的 能 


令 乔 姆 斯 基 无 法 想象 的 是 ， 如 果 加 上 对 环境 的 深度 学 习 和 用 毕生 
的 经 验 磨 炼 出 的 深度 学 习 的 代价 函数 ， 像 强化 学 习 这 样 的 弱 学 习 系 统 
也 可 以 产生 认 知 行为 ， 包 括 语 言 。 在 20 世 纪 80 年 代 ， 这 一 点 对 我 来 说 
并 不 明显 ， 尽 管 我 应 该 认识 到 ， 如 果 像 话语 网 络 这 样 的 小 型 网 络 可 以 
处 理 英 语 发 音 ， 那 么 很 可 能 在 对 言语 的 表征 中 ， 学 习 网 络 一 一 无 论 是 
模型 网 络 还 是 皮层 网 络 一 一 都 对 语言 有 着 天 然 的 亲和力 。 乔 姆 斯 基 的 
立场 是 基于 想象 力 的 匮乏， 但 从 逻辑 来 说 符合 了 奥 格 尔 的 第 二 定律 : 
进化 比 你 聪明 ， 而 这 个 “你 ”也 包括 像 乔 姆 斯 基 这 样 的 专家 。 事 实 上 ， 


当 一 位 专家 告诉 你 自然 界 的 菜 些 事情 是 不 可 能 的 时 候 ， 你 应 该 保持 谨 
慎 一 不 管 这 个 论证 有 多 么 合理 或 者 令 人 信服 。 

在 20 世 纪 后 半 叶 ， 乔 姆 斯 基 对 语序 和 句法 的 强调 成 为 语言 学 的 主 
导 方 式 。 但 即使 是 一 个 “ 词 袋 ” (bag of words) 模型 的 神经 网 络 ， 抛 弃 
单词 顺序 ， 也 能 在 判定 文章 (如 体育 报道 或 政论 ， 的 主题 方面 表现 出 
色 ， 并 且 通 过 参考 直接 相 邻 的 文字 关系 ， 性 能 还 可 以 得 到 进一步 的 提 
升 。 我 们 通过 深度 学 习 获 得 的 经 验 是 ， 即 使 词 序 包含 一 些 信息 ， 但 基 
于 单词 含义 及 词 间 关系 的 语义 更 重要 。 词 汇 在 大 脑 中 被 丰富 的 内 部 结 
构 所 表征 。 随 着 我 们 对 在 深度 学 习 网 络 中 词汇 如 何 表达 语义 有 了 更 深 
入 的 了 解 ， 我 们 可 能 会 开启 一 门 新 的 语言 学 。 就 像 大 自然 没有 理由 向 
我 们 揭示 视觉 的 工作 原理 一 样 ， 也 没有 理由 认为 ， 我 们 对 语言 工作 原 
理 的 直觉 会 更 好 。 

我 们 来 考虑 一 下 ， 在 对 自然 语言 任务 进行 训练 的 模型 网 络 中 ， 单 
词 的 内 部 结构 可 能 是 什么 样子 。 虽 然 网 络 可 能 是 针对 特定 问题 进行 训 
练 ， 但 网 络 表征 输入 的 方式 可 被 用 于 解决 其 他 问题 。 一 个 很 好 的 例子 
就 是 训练 一 个 网 络 ， 来 预测 句子 中 的 下 一 个 单词 。 在 经 过 训练 的 网 络 
中 ， 单 词 的 表征 方式 具有 内 部 结构 (以 网 络 中 所 有 单元 的 活动 模式 的 
形式 ) ， 可 以 用 来 在 单词 对 之 间 进 行 类 比 。( 同 例如 ， 当 这 些 活动 模式 
被 投影 到 一 个 平面 时 ， 连 接 国 家 和 首都 的 矢量 都 是 一 样 的 。 在 没有 任 
何 关于 首都 城市 意味 着 什么 的 监督 信息 的 前 提 下 (图 17-4) ， 网 络 学 
会 了 自动 组 织 概念 并 隐 式 地 学 习 它们 之 间 的 关系 ， 这 就 表明 ， 可 以 使 
用 无 监督 学 习 从 文本 中 提取 国家 和 首都 的 语义 。 
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国家 的 首都 ， 可 以 将 此 箭头 添加 到 该 


单词 对 也 以 类 似 的 方式 表示 。 例 如 ， 妇 
国家 的 矢量 中 ， 并 检索 出 其 首都 的 矢量 。 资 料 来 源 : T. 
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图 17-4 网 络 中 单词 的 内 部 表征 被 用 来 训练 预测 句子 中 的 下 一 个 单词 。 每 个 单词 都 是 网 络 活 动 
矢量 ， 可 以 如 上 所 示 投 影 到 二 维 平面 上 。 篆 头 将 国家 连接 到 它们 的 首都 。 由 于 所 有 这 些 箭 


Mikolov, I. Sutskever, K. Chen, G. Corrado and J. Dean, “Distributed Representations of Words 


and Phrases and Their Compositionality”， 图 2。 图 片 来 源 ， 杰 夫 : 迪 恩 。 
我 在 奢 省 理工 学 院 的 一 次 渤 讲 中 ， 开 门 见 山 地 说 道 :“ 语 言 太 重 要 


了 ， 不 能 只 留 给 语言 学 家 去 研究 。" 包 我 的 意思 是 ， 我 们 不 应 该 只 售 
留 在 行为 层面 描述 语言 。 我 们 应 该 理解 语言 背后 的 生物 学 原理 和 潜在 


— 


的 生物 学 机 制 ， 以 及 知人 的 语言 能 力 是 如 何 演变 的 。 使 用 无 创 大 脑 成 
像 ， 以 及 直接 对 着 病 患 者 的 大 脑 活 动 进行 记录 ， 已 经 使 这 一 想法 成 为 
可 能 。 对 大 脑 研究 来 说 ， 同 等 重要 的 是 通过 比较 人 类 大 脑 与 黑猩猩 和 
其 他 高 等 灵 长 类 大 脑 的 差异 ， 来 理解 语言 是 如 何 形 成 的 ， 相 比 在 早期 
经 过 更 加 漫长 的 过 程 获 得 感觉 运动 技能 ， 使 用 语言 的 能 力 发 生 在 进化 
的 某 个 瞬间 。 强 大 的 基因 工具 将 使 我 们 能 够 剂 析 大 脑 的 发 育 ， 并 理解 
进化 如 何 通 过 在 发 育 中 不 断 修正 来 形成 我 们 先天 的 语言 学 


言 学 习 能 


o 


语言 可 以 通过 诉 诸 似 征 而 非 和 源 目 无 知 的 争论 被 用 来 进行 误导 和 
控制 ， 这 种 无 知 会 产生 远 远 超出 科学 范畴 的 负面 影响 。 历 史上 充 不 着 
灶 动 者 ， 当 他 们 在 想象 力 方面 的 苇 乏 被 又 露出 来 ， 最 终 吏 会 难 逃 被 抛 
弃 的 命运 。 和 幸运 的 是 ， 大 脑 存 在 的 时 间 比 语言 要 长 很 多 ， 如 果 我 们 依 
赖 于 早 在 语言 出 现 之 前 就 进化 出 来 的 那 部 分 大 脑 ， 肯 定 会 从 中 受益 。 


难 预测 的 行为 规律 


回想 起 来 ， 行 为 主义 和 认 知 科学 在 20 世 纪 对 行为 的 研究 采取 了 相 
反 的 方式 ， 但 都 犯 了 同样 的 错误 ， 即 忽视 了 大 脑 的 重要 性 。 行 为 主义 
者 不 希望 被 反思 误导 ， 所 以 他 们 认为 不 去 大 脑 中 寻求 指导 ， 实 际 上 是 
一 种 荣耀 。 他 们 认为 ， 通 过 仔细 控制 黑匣子 的 输入 和 输出 ， 可 以 发 现 
任何 偶然 事件 的 行为 规律 。“ 功 能 主义 ”的 认 知 科学 家 拒 不 认可 行为 主 
义 ， 并 且 相 信 他 们 可 以 发 现 思维 的 内 在 表征 方式 ， 但 是 因为 他 们 也 相 
信 大 脑 如 何 实现 这 些 表 征 的 细节 无 关 紧 要 ， 伟 因此 他 们 所 开发 的 内 部 
表征 是 基于 不 可 靠 的 直觉 和 大 众 心理 学 。 大 自然 比 这 两 派 都 要 聪明 。 

黑匣子 的 内 部 状态 非常 复杂 ， 因 此 要 发 现 内 部 表征 和 行为 规律 非 
常 困难 。 如 果 有 一 天 我 们 确实 发 现 了 行为 规律 ， 很 可 能 会 对 它们 进行 
功能 性 的 描述 ， 尽 管 这 个 描述 可 能 和 量子 力学 对 于 物理 学 家 一 样 ， 是 
违反 直觉 的 。 想 要 发 现行 为 规律 ， 我 们 需要 尽 可 能 依赖 大 脑 。 深 度 学 
习 网 络 是 通过 关注 大 脑 结构 的 菜 些 一 般 特征 ， 以 及 大 脑 功能 的 一 般 原 
理 来 取得 进步 的 范例 。 我 毫 不 怀疑 强硬 的 功能 主义 者 会 提出 抗议 ， 但 
我 们 需要 前 进 ， 而 不 是 墨守成规 。 在 此 过 程 的 每 一 步 中 ， 添 加 来 自 大 
脑 架构 的 一 系列 新 特征 都 提升 了 深度 学 习 网 络 的 功能 ;皮层 区 域 的 层 
次 结构 ， 深 度 学 习 与 强化 学 习 在 大 脑 中 的 耦合 ， 循 环 皮 层 网 络 中 的 工 
作 记忆 ， 以 及 关于 事实 和 事件 的 长 期 记忆 ， 等 等 。 我 们 还 可 以 从 更 多 
的 大 脑 计 算 原 理 中 学 习 ， 并 充分 利用 它们 © @ 


研究 知觉 、 记 忆 和 决策 的 神经 科学 家 通常 在 他 们 的 实验 中 使 用 基 
于 试验 的 任务 ， 在 这 些 任务 中 ， 实 验 动物 接受 训练 以 对 刺激 产生 期 户 
的 反应 。 经 过 数 月 的 训练 后 ， 这 些 刺激 驱动 的 反应 变 成 了 反射 ， 而 不 
是 反思 ， 这 可 以 揭示 习惯 行为 ， 而 不 是 认 知 行为 背后 的 机 制 。 思 考 不 
是 一 种 反射 ， 它 可 以 在 没有 任何 感官 刺激 的 情况 下 发 生 ， 但 传统 的 实 
验 设计 方式 忽略 了 在 没有 感官 输入 的 情况 下 进行 的 自发 活动 。 我 们 需 
要 新 的 方法 来 研究 与 感官 和 运动 无 关 的 内 部 活动 ， 其 中 包括 有 意识 思 
考 和 无 意识 处 理 。 出 现 了 这 样 一 种 新 的 情况 ， 大 脑 成 像 实 验 揭示 了 当 
人 被 放 入 扫描 仪 并 被 要 求 “休息 "时 ， 所 自发 产生 的 静 息 状态 。 当 无 所 
事 事 时 ， 意 识 则 表现 为 一 种 飘忽 不 定 的 模式 ， 这 是 一 种 我 们 可 以 观察 
到 但 尚未 理解 的 大 脑 活 动 。 

脑 成 像 ， 尤 其 是 无 创 性 功能 磁 共 振 成 像 (fMRI) 开辟 了 研究 社会 
互动 和 决策 制定 的 新 途径 ， 形 成 了 一 个 名 为 “神经 经 济 学 "的 新 领域 。 
固 因 为 人 类 并 不 是 经 典 经 济 学 中 经 常 假设 的 理性 行为 者 ， 我 们 的 判断 
和 动机 来 自 复杂 的 大 脑 内 部 状态 ， 因 此 我 们 需要 根据 实际 而 非 理想 化 
的 人 类 判断 和 动机 ， 来 建立 一 个 行为 经 济 学 。( 四 正如 第 10 章 所 述 ， 多 
巴 胺 神经 元 通过 表现 奖励 预测 误差 ， 对 动机 产生 了 强大 的 影响 。 针 对 
社交 互动 的 大 脑 成 像 ， 能 够 以 纯粹 的 行为 实验 无 法 实现 的 方式 探究 人 
类 的 动机 。 我 们 的 目标 是 用 基于 先前 经 验 的 概率 决策 理论 ， 来 取代 基 
于 逻辑 的 理性 决策 理论 。 


神经 网 络 的 寒冬 


神经 网 络 的 早期 历史 ， 其 实 就 是 一 个 不 大 但 项 具 影响 力 的 团队 ， 
如 何 能 够 将 人 研究 方向 市 离 正轨 的 案例 。 在 《感知 器 》 这 本 书 尾声 首 
分 ， 马 文 : 明 斯 基 和 西 摩尔 - 帕 普 特 (图 17-5) 表达 了 这 样 的 观点 ， 感知 
右 学 习 和 滤 法 并 不 能 扩展 到 多 层 感 知 右 : 


图 17-5 照片 拍摄 于 1971 年 马 文 . 明 斯 基 和 西 摩尔 .由 普 特 出 版 了 《感知 器 》 一 书后 不 久 。 其 中 对 
简单 网 络 出 色 的 数学 分 析 ， 让 一 代 追 求 基于 多 层 网 络 学 习 的 人 工 智能 方法 的 研究 人 员 ， 感 到 
ANSE TSE e ALAR UR: MEHLER © 

这 个 扩展 问题 不 仅仅 是 技术 问题 ， 也 是 战略 问题 。 尽 管 〈 甚 至 
是 因为 ) 它 有 着 严重 的 局 限 性 ， 感 知 器 已 经 显示 出 了 研究 价值 。 它 
具有 很 多 引 人 注 目的 特点 ， 线性， 有趣 的 学 习 理论 ， 清 晰 简单 的 范 
例 适 用 于 并 行 计算 。 但 没有 理由 认为 ， 这 些 特点 中 的 任何 一 种 会 延 
续 到 多 层次 版 本 。 尽 管 如 此 ， 我 们 仍然 认为 这 是 一 个 重要 的 研究 课 
题 ， 以 阐明 (或 否决 ) 我 们 对 “其 扩展 是 无 所 作为 的 ”的 直觉 判断 。 
我 们 也 许 会 发 现 一些 强 大 的 收敛 定理 ， 或 者 相反 地 ， 我 们 会 找到 无 
法 为 多 层 机 器 研发 有 趣 的 “学 习 理论 ”的 原因 。 仁 


训 无 疑问 ， 其 结果 导致 了 网 络 学 习 领 域 的 寸 草 不 生 。 在 明 斯 基 和 
帕 普 特 的 书 中 ， 这 种 毫 无 根据 的 “直觉 ”( 除 此 之 外 ， 这 倒是 一 本 好 
E) 对 神经 网 络 学 习 的 发 展 产 生 了 令 人 人 不寒而栗 的 影响 ， 让 一 代 人 的 
研究 就 此 停滞 不 前 。 尽 管 我 个 人 从 这 种 停 清 中 受益 ， 因 为 它 使 我 的 事 
业 成 为 可 能 。 但 是 我 有 机 会 在 明 斯 基 职 业 生 涯 后 期 ， 站 在 幕后 洞察 一 
1j o 

我 被 邀请 参加 2006 年 达 特 茅 斯 人 工 智 能 会 议 “AI@50”， 回 顾 1956 
年 在 达 特 茅 斯 举行 的 开创 性 的 人 工 智能 夏季 研究 项 目 ， 并 讨论 人 工 知 


能 的 未 来 。( 志 1956 年 该 项 目的 十 位 先驱 中 的 五 位 出 席 了 这 次 会 议 : 约 
WFK (John McCarthy， 斯 坦 福 大 学 ) ， 马 文明 斯 基 〈 麻 省 理工 
学 院 ) ， 特 伦 查 德 :摩尔 (Trenchard More, IBM) |, €- MANER 
(Ray Solomonoff， 伦 敦 大 学 ) MAA H- EA (Oliver Selfridge, 
MEHL) 。 无 论 从 科学 还 是 社交 的 角度 来 说 ， 这 都 是 一 次 引 人 
入 胜 的 会 议 。 

卡 内 基 - 梅 隆 大 学 的 金 出 武 雄 (Takeo Kanade) 在 他 的 演讲 “人 工 
智能 视野 : 进步 与 非 进步 ”(Artificial Intelligence Vision: Progress and 
Non-Progress) 中 指出 ， 以 今天 的 标准 来 看 ，20 世 纪 60 年 代 的 计算 机 内 
存 很 小 ， 并 且 一 次 只 能 你 存 一 张 图 像 。 金 出 武 雄 在 他 1974 年 的 博士 论 
文中 指出 ， 尽 管 他 的 程序 可 以 在 一 个 图 像 中 找到 一 辆 坦 元 ， 但 是 在 其 
他 图 像 中 ， 如 果 坦 克 处 于 不 同 的 位 置 并 且 光 照 不 同 ， 则 很 难得 到 同样 
的 结果 。 但 是 ， 当 他 早期 的 学 生 毕 业 时 ， 因 为 电脑 更 强大 ， 他 们 设计 
的 程序 可 以 在 更 普遍 的 条 件 下 识别 坦 元 。 今 天 ， 他 学 生 的 程序 可 以 识 
别 任何 图 像 中 的 坦克 。 不 同 之 处 在 于 ， 今 天 我 们 可 以 访问 数 以 百 万 计 
的 图 像 ， 可 以 对 各 种 姿态 和 光照 条 件 进行 取样 ， 而 且 计 算 机 的 功能 
是 强大 了 数 百 万 倍 。 
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f" (Intelligence and Bodies) 的 演讲 中 ， 讲 述 了 他 在 建造 仅 行 和 漫步 
机 妖 人 方面 的 经 验 。 智 能 在 大 脑 中 进化 以 控制 运动 ， 并 且 寻 体 逐 渐 发 
展 为 通过 智能 与 世界 互动 。 布 鲁 克 斯 放弃 了 机 器 人 专家 使 用 的 传统 控 
制 器 ， 并 将 行为 ， 而 非 计 算 ， 作 为 设计 机 器 人 的 参考 。 随 着 我 们 对 如 
何 搭建 机 右 人 的 了 解 更 加 深入 ， 会 更 清楚 地 认识 到 里 体 是 意识 的 一 部 


在 “为 什么 自然 语言 处 理 现在 是 统计 自然 语言 处 理 ” (Why Natural 
Language Processing is Now Statistical Natural Language Processing) 的 
演讲 中 ， 欧 仁 : 查 尼 阿 克 (Eugene Charniak) 解释 说 ， 语 法 的 基本 作用 
是 在 句子 中 标记 词类 。 人 类 接受 这 方面 训练 后 ， 会 比 现 有 的 解析 程序 


做 得 更 好 。 计 算 语言 学 领域 最 初试 图 应 用 诺 姆 . 乔 姆 斯 基 在 20 世 纪 80 年 
代 首 创 的 生成 语法 (generative grammar) 方法 ， 但 结果 令 人 失望 。 最 
终 被 证 明 可 行 的 办 法 是 ， 聘 请 布朗 大 学 的 学 生 为 《华尔街 日 报 》 上 千 
篇 文章 的 词类 进行 手写 标注 ， 然 后 应 用 统计 技术 ， 根 据 相 邻 单词 来 确 
定 特定 单词 的 词类 。 这 一 过 程 需要 大 量 的 例子 ， 因 为 大 多 数 单词 有 多 
重 含义 ， 每 个 单词 对 应 许多 不 同 的 上 下 文 。 目 前 ， 在 句子 中 对 词类 进 
行 自动 标记 ， 已 经 成 为 可 以 利用 机 器 学 习 来 解决 的 问题 。 

这 些 成 功 的 故事 有 一 个 共同 的 轨迹 。 过 去 ， 电 脑 速度 很 慢 ， 只 能 
用 少数 几 个 参数 来 探索 一 个 玩具 模型 。 但 是 这 些 玩具 模型 无 法 适用 于 
现实 世界 的 数据 。 当 拥有 了 大 量 数据 ， 并 且 计 算 机 速度 也 更 快 时 ， 就 
可 以 创建 更 复杂 的 统计 模型 ， 并 提取 更 多 特征 和 特征 之 间 的 关系 。 深 
度 学 习 使 这 一 过 程 实现 了 自动 化 。 深 度 学 习 可 以 从 非常 大 的 数据 集中 
提取 特征 ， 而 不 是 让 领域 专家 为 每 个 应 用 程序 手动 创建 这 些 特征 。 随 
着 计算 取代 了 劳动 力 并 不 断 变 得 更 廉价 ， 计 算 机 将 能 够 执行 更 多 劳动 
密集 型 的 认 知 任务 。 

会 议 结束 时 的 总 结 性 发 言 中 ， 马 文明 斯 基 一 开始 就 表示 ， 他 对 
演讲 和 AI 的 研究 方向 感到 失望 。 他 解释 道 : “你 们 不 是 在 解决 通用 的 条 
能 问题 。 你 们 只 是 在 解决 具体 的 应 用 问题 。” 这 次 会 议 应 该 是 对 我 们 所 
取得 的 进展 的 一 次 庆祝 ， 但 是 却 被 他 的 指责 打击 了 。 我 做 的 演讲 是 关 
于 强化 学 习 的 进展 ， 并 展示 了 TD-Gammon 通 过 训练 ， 能 在 西洋 双 陆 棋 
中 表现 出 冠军 水 平 的 显著 成 果 。 不 过 我 的 演讲 并 没有 给 他 留 下 深刻 的 
印象 ， 他 始终 认为 ， 那 只 是 一 个 游戏 罢了 。 

明 斯 基 的 “通用 的 智能 "意味 着 什么 呢 ? 他 在 其 著作 《心智 社会 》 
(The Society of Mind) ( 己 中 提 到 ， 前 提 是 通用 的 智能 来 自 简单 媒介 之 
间 的 相互 作用 。 明 斯 基 曾 经 说 过 ， 有 关 他 的 理论 的 最 大 想法 ， 是 来 源 
于 试图 创建 一 台 使 用 机 器 人 手臂 、 摄 像 机 和 计算 机 的 机 器 ， 可 以 用 儿 
童 的 积木 构建 一 个 结构 (图 2_1) 。 售 ) 这 听 起 来 很 像 一 个 应 用 。 一 个 
具体 的 应 用 会 迫使 你 专注 于 并 深入 到 最 底层 问题 ， 而 抽象 理论 化 的 方 


法 则 不 能 。 演 言 人 在 达 特 茅 斯 会 议 上 所 报告 的 成 就 ， 来 自 对 具体 问题 
的 深入 了 解 ， 为 更 全 面 的 理论 理解 铺 平 了 道路 。 也 许 ， 一 个 更 好 的 通 
用 智能 理论 有 一 天 会 从 这 些 狭隘 的 AI 成 就 中 浮现 出 来 。 

我 们 的 大 脑 不 只 是 凭空 产生 抽象 的 想法 。 它 们 与 我 们 号 体 的 所 有 
部 位 密切 相连 ， 而 我 们 的 身体 又 通过 我 们 的 感官 输入 和 运动 效应 器 与 
外 界 密切 相连 。 生 物 智能 因此 而 具体 化 。 更 重要 的 是 ， 我 们 的 大 脑 在 
与 外 界 互 动 的 同时 ， 经 历 了 一 个 漫长 的 成 熟 过程 。 学 习 是 一 个 与 发 育 
同时 进行 的 过 程 ， 并 且 在 我 们 达到 成 年 后 仍然 会 持续 很 长 一 段 时 间 o 
因此 ， 学 习 对 于 通用 智能 的 发 展 至 关 重 要 。 有 趣 的 是 ， 人 工 智 能 中 最 
难 解决 的 问题 之 一 是 和 常识， 显然 这 是 儿童 并 不 具备 的 ， 只 有 在 长 期 与 
外 界 接触 后 ， 大 多 数 成 人 才 会 获得 常识 。 人 工 智能 中 经 常 忽略 的 情绪 
和 通 感 也 是 智能 的 一 个 重要 方面 。 包 情绪 是 个 整体 信号 ， 可 以 使 大 脑 
为 不 能 由 局 部 大 脑 状 态 决 定 的 行动 做 好 准备 。 

AI@50 的 最 后 一 天 举行 了 宴会 。 在 晚餐 结束 时 ，1956 年 达 特 芳 斯 
人 工 智能 夏季 研究 项 目的 5 名 回归 成 员 简 要 介绍 了 会 议和 人 工 智能 的 未 
来 。 在 问答 期 间 ， 我 站 起 来 ， 转 癌 明 斯 基 说 道 : “神经 网 络 社区 有 一 种 
看 法 : 你 是 上 世纪 70 年 代 需 要 为 神经 网 络 萧 条 负责 的 魔鬼 。 你 是 魔鬼 
吗 ? ” 明 斯 基 发 起 了 一 场 关于 我 们 如 何不 理解 我 们 网 络 的 数学 局 限 性 的 
长 篇 大 论 。 我 打 断 了 他 : “ 明 斯 基 博 士 ， 我 问 的 是 一 个 是 或 否 的 问题 。 
你 是 ， 还 是 不 是 ? ”他 犹 驳 了 片刻 ， 然 后 喊 道 : “EW, SEIS HUI" 

1958 年 ， 弗 兰 克 . 罗 和 森 布 拉 特 制造 了 一 个 模拟 计算 机 ， 被 设计 用 来 
模拟 感知 器 ， 因 为 当时 数字 计算 机 在 模拟 计算 密集 度 高 的 网 络 模型 时 
速度 很 慢 。 到 了 20 世 纪 80 年 代 ， 计 算 机 的 计算 功能 大 大 提升 ， 让 我 们 
能 够 通过 模拟 小 型 网 络 来 探索 学 习 算 法 。 但 直到 2010 年 ， 才 有 足够 的 
计算 机 能 力 将 网 络 规模 扩大 到 可 以 解决 实际 问题 的 程度 。 

明 斯 基 在 1954 年 从 普林斯顿 大 学 获得 数学 博士 学 位 ， 他 的 论文 是 
关于 用 神经 网 络 进 行 计 算 的 理论 和 实验 研究 。 他 甚至 用 电子 部 件 构建 
出 了 小 型 网 络 ， 以 了 解 它 的 行为 。 当 我 还 是 普林斯顿 大 学 物理 系 的 研 


究 生 时 ， 就 听 说 数学 系 里 没有 人 有 资格 评审 他 的 论文 忆 ， 所 以 人 们 把 
它 发 给 了 普林斯顿 高 等 研究 院 的 数学 家 们 ， 据 说 他 们 能 与 上 帝 交 谈 。 
回复 的 评论 是 ,“ 如 有 果 这 在 今天 不 古 数学 ， 未 来 总 有 一 天 会 是 。” 这 足 
以 为 明 斯 基 说 得 他 的 博士 学 位 。 而 神经 网 络 确实 引发 了 一 类 新 的 数学 
玉 数 ， 这 些 画 数 激 发 了 新 的 研究 ， 并 正在 成 为 数学 的 一 个 新 分 文 。 年 
轻 的 明 斯 基 超 越 了 他 的 时 代 。 


从 深度 学 习 a 到 通用 人 工 稼 能 


马 文 . 明 斯 基于 2016 年 去 世 ， 他 坚信 神经 网 络 无 法 实现 通用 的 人 工 
智能 。 斯 带 分 . 沃 尔 夫 勒 姆 在 一 篇 关于 他 与 明 斯 基 友 谊 的 文章 中 关切 地 
写 道 :“ 昌 然 我 认为 没有 人 能 在 当时 就 预见 到 ， 但 我 们 现在 知道 ， 马 文 
早 在 1951 年 承 已 经 在 研究 的 神经 网 络 ， 在 旨 着 他 所 硕 望 的 那 种 令 人 叹 
为 观 止 的 AI 能 力 发 展 的 正确 道路 上 前 进 。 可 惜 这 个 过 程 太 久 了 ， 马 文 
几乎 没 能 看 到 它 的 实现 。" 人 四 

明 斯 基 去 世 后 不 久 ，DeepMind 的 研究 人 员 艾 历 克 斯 :格雷 夫 斯 

(Alex Graves) 和 格雷 格 : 韦 恩 (Greg Wayne) 通过 添加 动态 外 部 存储 
器 ， 实 现 了 基于 深度 学 习 的 通用 人 工 智能 的 下 一 步 。 人 后 活动 模式 在 深 
度 循 环 神经 网 络 中 只 能 被 暂时 存储 ， 这 束 很 难 对 推理 和 推 新 进行 模 
拟 。 通 过 在 网 络 中 添加 一 个 稳定 的 存储 器 ， 可 以 像 数 字 计 算 机 内 存 一 
样 灵 活 地 写 入 和 读 取 ， 人 研究 人 员 展 示 了 一 个 训练 好 的 强化 学 习 网 络 ， 
可 以 回答 需要 推理 的 问题 。 例 如 ， 一 个 这 样 的 网 络 对 伦敦 地 铁路 线 做 
出 了 合理 的 规划 ， 另 一 个 则 回答 了 关于 家 谱 中 成 员 关 系 的 问题 。 动 态 
记忆 网 络 (Dynamic Memory Networks) 也 能 够 掌握 20 世 纪 60 年 代 对 麻 
省 理工 学 院 人 工 智 能 实验 室 提出 挑战 的 “积木 世界 ”任务 (图 2-1) 。 这 
允 市 我 们 回 到 了 第 2 章 开 始 的 地 方 。 


弗朗西斯 : 克 里 克 于 2004 年 去 世 ， 此 后 不 久 ， 莱 斯 利 . 奥 格 尔 在 2007 
年 也 去 世 了 ， 这 标志 着 索 尔 克 研 究 所 一 个 时 代 的 终结 。 现 在 这 些 科 学 
巨人 已 经 不 在 我 们 身边 了 ， 而 新 一 代 的 学 者 仍 在 同 前 迈进 。 我 在 索 尔 
克 人 研究 所 工作 了 30 年 ， 相 当 于 它 一 半 的 寿命 。 我 们 的 大 家 庭 组 建 于 
1960 年 ， 所 有 的 教 职 工 都 在 同一 条 小 船上 。* 索 尔 克 号 ”很 小 ， 小 到 每 
2 s A s 它 仍然 会 

给 我 们 一 种 家 的 感觉 ， 也 证 明了 这 个 机 构 文化 的 持久 性 

我 们 是 一 个 伟大 的 生物 链 〈 可 以 回溯 到 细菌 出 现 之 前 ) 中 的 一 
员 。 现 在 我 们 已 经 到 了 理解 大 脑 以 及 它们 是 如 何 发 展 的 边缘 ， 这 将 会 
个 奇迹 ， 能 够 永远 改变 我 们 对 自己 的 看 法 。 
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Xie AER 


西 德 尼 : 布 伦 纳 (Sydney Brenner) 在 南非 出 生 并 接受 教育 ， 随 后 
参与 了 剑桥 大 学 早期 的 分 子 遗 传 学 研究 工作 (图 18-1) e ft a 75 Bj 
西 斯 : 克 里 克 在 分 子 生 物 学 实验 室 (LMB) 共用 一 个 办 公 室 。 如 果 是 
你 ， 在 发 现 DNA 的 结构 并 解 开 了 遗传 密码 之 后 ， 会 在 下 一 个 项 目 里 做 
什么 ? 克 里 克 决定 把 重点 放 在 人 类 的 大 脑 上 。 布 伦 纳 开始 研究 一 种 新 
模式 生物 一 一 线虫 (C. elegans) , i —-PRETRAE TEP, A 
1 毫米 长 ， 只 有 302 个 神经 元 。 长 期 妃 踩 体内 的 每 个 细胞 ， 了 解 个 体 如 
何 从 一 个 胚胎 逐渐 发 育成 熟 的 研究 ， 使 得 这 些 线虫 成 了 许多 突破 性 发 
现 的 源头 。 布 伦 纳 因为 这 项 人 研究， 在 2002 年 和 罗伯特 : 霍 维 次 (H. 
Robert Horvitz) ^ 约翰: 苏 尔 斯 顿 (John E. Sulston) ， 共 同 分 享 了 诺 贝 
尔 生 理学 或 医学 奖 。 布 伦 纳 也 因 他 的 智慧 而 闻名 。 他 在 诺 贝 尔 获 奖 者 
BH, PATRE: “我 今天 的 演讲 题目 是 “大 目 然 对 科学 的 恩 
赐 ; (Nature's gift to Science) 。 内 容 并 不 是 关于 一 个 科学 期 刊 对 另 一 
个 期 刊 的 致敬 ， 而 是 关于 生命 世界 的 多 样 性 如 何 局 发 和 服务 于 生物 人 研 
究 领域 的 创新 。" 四 看 上 去 西 德 尼 . 布 伦 纳 似乎 见证 了 “ 创 世 记 ”。 


图 18-1 西 德 尼 ` 布 伦 纳 是 生物 学 界 的 传奇 人 物 。 他 研究 遗传 密码 ，DNA 中 碱 基 对 被 转录 成 蛋 


质 的 方式 ， 并 因 其 对 模式 生物 的 开创 性 研究 工作 而 获得 诺 贝 尔 奖 。 这 张 照片 来 自 2010 年 《 科 
学 网 络 》 对 他 的 采访 ，http://thesciencenetwork.org/ programs/the-science-studio/sydney-brenner- 
part-1 ° 


布 伦 纳 2009 年 在 索 尔 克 研 究 所 做 过 三 场 系 列 讲座 ， 标 题 是 “阅读 人 
类 基因 组 ” (Reading the Human Genome) ， 讲 座 很 精彩 ， 没 有 借助 
任何 幻灯 片 或 道具 。 他 注意 到 ， 除 了 电脑 ， 还 从 没有 人 曾经 阅读 过 整 
个 人 类 基因 组 ， 一 个 个 地 检查 碱 基 对 ， 于 是 便 将 其 作为 目 己 的 目标 。 
在 这 个 过 程 中 ， 他 发 现 了 不 同 的 基因 和 物种 的 DNA 序 列 之 间 有 趣 的 相 
似 之 处 。 


布 伦 纳 在 全 球 多 个 研究 机 构 都 有 教 职 。 他 在 新 加 坡 有 一 个 实验 项 

目 ; 也 是 日 本 冲绳 理工 学 院 的 创始 校长 ; 弗吉尼亚 州 阿 什 本 
(Ashburn) 附近 霍华德 : 休 斯 医学 研究 所 珍妮 莉 亚 研究 园区 的 高 级 研 
FLL; De BOE fi ter ROR SLE PTS ok BES TH ST EE 
生物 学 中 心 ( Crick-Jacobs Center for Theoretical and Computational 
Biology) 的 高 级 研究 员 。 以 上 只 是 其 中 的 几 个 头衔 。 在 戴 维 : 马 尔 获得 
了 他 的 博士 学 位 后 ， 布 伦 纳 聘 请 马尔 在 LMB 从 事 计算 研究 工作 ， 后 来 
布 伦 纳 通过 上 自己 的 南非 朋友 西 摩尔 由 普 特 ， 在 麻 省 理工 学 院 的 AI 实验 


室 为 马尔 安排 了 一 个 职位 。 分 子 遗 传 学 和 神经 生理 学 之 间 的 关系 很 
深 ， 而 布 伦 纳 在 这 两 个 领域 都 处 于 中 心 位 置 。 

布 伦 纳 有 一 次 去 拉 荷 亚 的 时 候 ， 我 和 他 吃 了 顿 晚 饭 ， 其 间 我 告诉 
他 ， 多 年 前 我 在 哈佛 医学 院 做 博士 后 的 时 候 听 过 一 个 故事 B BR 
斯 . 克 里 克 死 后 到 了 天 堂 。 圣 彼得 看 到 这 个 坚定 的 无 神 论 者 感到 很 惊 
讶 ， 但 弗朗西斯 去 天 堂 是 想 问 上 帝 一 个 问题 。 他 被 带 到 了 田野 中 的 一 
个 木 棚 里 ， 里 面 散落 着 各 种 轮子 和 疯 轮 ， 都 是 失败 的 试验 品 。 弗 朗 西 
斯 看 到 上 帝 围 着 皮质 围裙 站 在 工作 台 边 ， 正 在 修补 一 个 新 的 有 机 
fk 。“ 弗 朗 西 斯 ，” 上 帝 说 ,，“ 见 到 你 真是 太 高 兴 了 。 我 可 以 为 你 做 些 什 
A? >“ 在 我 的 一 生 中 ，” 弗 朗 西 斯 说 ，" 我 都 想 知道 这 个 问题 的 答案 : 
为 什么 苍蝇 有 成 虫 盘 ? > 亲爱 的 弗朗西斯 ，” 上 帝 回答 道 ，“ 这 真是 
个 惊喜 ! 从 来 没有 人 问 过 我 这 个 问题 。 我 已 经 将 成 虫 盘 放 入 苍蝇 体内 
数 亿 年 了 ， 还 从 来 没有 听 到 过 任何 抱怨 。” 

听 完 这 个 故事 ， 布 伦 纳 没 说 话 。 我 猜想 ， 讲 这 么 一 个 贬损 他 的 亲 
密 朋 友 的 故事 ， 或 许 有 些 冒 犯 。“ 特 里 ，* 他 说 ，“ 我 可 以 告诉 你 我 第 一 
次 碰 到 这 个 故事 的 那个 场景 。 弗朗西斯 和 我 坐 在 办 公 室 里 ， 他 当时 正 
在 读 一 本 关于 发 育 生 物 学 的 书 ， 突 然 举 起 手 说 : “上 帝 才 知 道 苍蝇 为 什 
么 会 有 成 虫 盘 ! ” 

我 惊 呆 了 。 找 到 你 几 十 年 前 就 听 过 ， 并 复述 了 无 数 次 的 故事 的 源 
头 的 机 会 ， 有 多 少 呢 ? 我 让 布 伦 纳 告诉 我 最 初 的 版 本 。 他 说 故事 的 标 
题 是 “天 堂 里 的 弗朗西斯 . 克 里 克 *， 他 的 故事 版 本 与 我 的 版 本 有 着 相同 
的 基本 结构 ， 但 细节 却 不 尽 相 同 千 就 像 进 化 过 程 一 样 ， 故 事 的 基 
本 核心 不 变 ， 但 许多 细节 却 改变 了 。 

我 于 2017 年 1 月 探望 了 在 新 加 坡 的 布 伦 纳 ， 庆 祝 他 的 90 罗 生日 。 他 
因为 健康 问题 不 再 旅行 ， 还 需要 坐 在 轮椅 上 ， 但 仍 和 我 之 前 每 次 见 到 
他 时 那样 有 活力 。 西 奥 多 西 厄 斯 :多 布 赞 斯 基 (Theodosius 
Dobzhansky) 曾经 说 过 ， 没 有 进化 论 ， 生 物 学 中 的 任何 东西 都 讲 不 
通 。 舍 ) 布 伦 纳 于 2017 年 ?月 21 日 在 新 加 坡 南洋 理工 大 学 举行 了 一 场 关 


于 细菌 进化 的 演讲 ， 该 演讲 是 系列 讲座 《10 个 10: 进化 编 年 史 》 (10- 
on-10: The Chronicle of Evolution ) (3 o (22017487 月 14 日 ， 我 也 在 这 
个 系列 讲座 中 做 了 关于 大 脑 进 化 的 主题 演讲 。 在 演讲 的 开头 ， 我 对 多 
布 赞 斯 基 的 那 句 话 做 了 些许 改动 : 没有 DNA， 生 物 学 中 的 任何 东西 都 
NIB © © 
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智能 在 许多 物种 中 发 展 起 来 ， 以 解决 它们 在 环境 中 面 对 的 生存 问 
题 。 在 海洋 中 进化 的 动物 与 在 陆地 上 进化 的 动物 相 比 ， 面 临 着 许多 不 
同 的 问题 。 视 觉 感知 使 我 们 能 够 感知 周围 的 世界 ， 我 们 还 发 展 出 了 视 
觉 智 能 来 解释 这 些 视觉 信号 。 人 研究 非 人 类 动物 的 目 然 行为 的 动物 行为 
学 家 们 ， 已 经 在 这 些 动物 刁 上 发 现 了 人 类 并 不 具备 的 能 力 和 技巧 ， 如 
回声 定位 : 蝙蝠 主动 发 出 听觉 信号 来 探测 它们 所 处 的 环境 ， 并 对 回声 
进行 分 析 。 这 创造 了 外 部 世界 的 内 部 表征 ， 所 有 表象 都 与 我 们 的 视觉 
体验 一 样 生动 。 蝙 早 具有 听觉 智能 ， 它 能 分 辩 来 自 豆 经 的 昆虫 (可 以 
捕捉 ) 和 来 自 障 碍 (需要 人 避免) 的 信号 。 

纽约 大 学 的 哲学 家 托马斯 :内 格 尔 (Thomas Nagel) 在 1974 年 写 了 


一 篇 题 为 《成 为 一 只 蜗 蝠 是 什么 感觉 ? 》 (What Is It Like to Be a 
Bat?) 的 文章 ， 并 得 出 结论 ， 如 有 果 没 有 回声 定位 的 直接 经 验 ， 我 们 就 
无 法 想象 蝙蝠 世界 是 什么 样 的 。 (加 但 缺乏 这 种 经 验 并 没有 妨碍 我 们 发 
明 雷 达 和 声呐 技术 〈 这 些 技术 使 我 们 能 够 积极 探索 看 不 到 的 世界 ) ， 
也 不 会 阻止 盲人 通过 适应 声音 的 反射 来 摸索 周边 的 环境 。 我 们 也 许 不 
知道 成 为 一 只 蝙蝠 是 什么 感觉 ， 但 我 们 可 以 发 展 类 蝙蝠 的 智能 ， 协 助 
目 动 敬 驶 汽车 使 用 雷达 和 激光 雷达 行进 。 

我 们 人 类 是 大 上 自然 中 学 习 方 面 的 佼佼 者 。 我 们 可 以 在 更 广泛 的 领 
域 中 学 得 更 快 ， 记 住 得 更 多 ， 通 过 不 断 党 衍 所 积累 的 知识 更 是 胜 过 任 


何其 他 物种 。 我 们 创造 了 一 种 名 为 “教育 ?的 技术 ， 以 增加 我 们 在 有 生 
之 年 能 够 学 到 的 东西 。 现 在 ， 儿 童 和 青少年 在 教室 里 度 过 了 目 己 的 成 
长 期 ， 不 断 学 习 着 世界 上 他 们 从 未 直接 体验 过 的 事物 。 作 为 相对 近期 
的 人 类 发 明 ， 阅读 和 写作 需要 很 多 年 才能 掌握 。 但 是 ， 这 些 发 明 使 得 
积累 的 知识 能 够 传递 给 下 一 代 ， 比 如 写 书 、 印 制 再 到 阅读 这 个 流程 ， 
仅 靠 口 口 相传 是 积累 不 了 那么 多 知识 的 。 正 是 写作 、 阅 读 和 学 习 ， 而 
非 说 话 ， 使 现代 文明 成 为 可 能 。 


进化 的 起 源 


我 们 的 进化 起 源 是 什么 ? 我 在 1998 年 协助 建立 的 拉 荷 亚 人 类 起 源 
小 组 ， 最 初 是 作为 一 个 小 组 定期 举行 会 议 ， 讨 论 可 能 帮助 我 们 回答 这 
个 问题 的 许多 证 据 ， 这 些 证 据 来 自古 生物 学 、 地 球 物理 学 、 人 类 学 、 
生物 化 学 、 遗 传 学 ， 还 有 比较 神经 科学 。 它 逐渐 吸引 了 很 多 国际 会 
员 ， 并 在 2008 年 成 为 加 州 大 学 圣迭戈 分 校 / 素 尔 克 人 类 学 学 术 研究 和 培 
训 中 心 (UCSD/Salk Center for Academic Research and Training in 
Anthropogeny， 简 称 CARTA) 。 人 (四 正如 NIPS 召 集 所 有 科学 和 工程 团队 
来 了 解 神经 计算 一 样 ， 在 探索 我 们 人 类 来 自 哪 里 ， 如 何 走 到 现在 ， 培 
养 新 一 代 思考 者 来 寻找 这 些 古 老 问 题 的 答案 方面 ，CARTA 也 吸取 了 来 
自 所 有 科学 领域 的 见解 。 


600 万 年 前 ， 人 属 的 谱系 从 黑猩猩 的 血统 中 分 离 出 来 (图 18-2) ° 
黑猩猩 是 一 种 非常 娶 明 的 物种 ， 但 墨 猩猩 的 智能 与 我 们 的 完全 不 同 。 
在 试图 教授 黑猩猩 语言 基础 知识 的 竹 试 中 我 们 发 现 ， 它 们 仅 能 学 会 
百 个 符号 ， 用 它 来 表达 简单 的 需求 ， 尽 管 以 这 种 方式 衡量 它们 的 智能 
显得 有 些 不 太公 平 。 如 有 果 我 们 不 得 不 在 黑猩猩 的 队伍 中 生存 下 去 ， 我 
们 又 会 有 多 好 的 表现 呢 ? 所 有 的 物种 都 和 我 们 一 样 以 目 我 为 中 心 吗 ? 


图 18-2 黑猩猩 的 大 脑 和 体积 更 大 的 人 脑 之 间 的 比较 ， 人 脑 已 经 进化 出 显著 增 大 的 ， 有 更 多 裙 
SAR Sz e RFR: Allman, Evolving Brains, p. 164 ° 


在 人 类 和 黑猩猩 之 间 存 在 的 差异 ， 可 以 在 我 们 的 DNA 中 找到 。 我 
们 知道 这 一 点 已 经 有 一 段 时 间 了 ， 人 类 的 30 亿 个 DNA 碱 基 对 中 ， 与 黑 
猩猩 不 同 的 只 占 1.4%。 当 黑猩猩 的 基因 组 被 首次 测序 后 ， 我 们 认为 目 
己 将 能 够 阅读 生命 之 书 ， 发 现 人 类 与 黑猩猩 有 什么 不 同 。 很 遗憾 ， 此 
书 大 约 有 90% 的 内 容 我 们 都 没有 能 力 读 懂 。( 时 我 们 的 大 脑 与 黑猩猩 的 
大 脑 非常 相似 ; 神经 解剖 学 家 已 经 在 两 个 物种 中 确定 了 相同 的 脑 区 。 
与 人 类 和 黑猩猩 在 行为 中 的 显著 差异 相 比 ， 这 两 个 物种 大 脑 之 间 的 大 
部 分 差异 处 于 分 子 水 平 ， 并 且 十 分 微妙 。 这 再 一 次 证 明了 ， 大 目 然 比 
我 们 聪明 。 


人 类 终 将 解决 智能 难题 


羔 斯 利 告诉 我 ， 奥 格 尔 的 第 一 法 则 指出 ， 细 胞 中 的 每 一 个 基本 反 
应 都 会 演化 出 一 种 酶 ， 来 催化 这 种 反应 。 这 种 酶 不 仅 加 速 了 反应 ， 而 
且 还 可 以 通过 与 其 他 分 子 的 相互 作用 来 调节 反应 ， 从 而 使 细胞 更 加 高 
效 ， 适 应 性 更 强 。 目 然 以 一 个 巧妙 的 反应 路 径 开 始 ， 通 过 添加 酶 和 备 
份 路 径 逐 渐 改 善 这 个 路 径 。 然 而 所 有 这 些 在 缺失 核心 过 程 的 情况 下 是 
无 法 工作 的 ， 这 个 核心 过 程 对 于 细胞 来 说 整 是 DNA 的 维护 和 复制 ， 它 
在 细胞 生物 化 学 领域 中 扮演 着 “蜂王 ?的 角色 。 


单 细胞 生物 已 经 适应 了 许多 不 同 的 环境 ， 并 在 生态 中 演化 出 它们 
目 己 的 位 置 。 例 如 ， 细菌 已 经 适应 了 极端 的 环境 一 一 从 海 瓜 的 高 温 液 
体 喷 口 到 南极 浏 的 冰 层 ， 以 及 更 多 温和 的 环境 ， 比 如 我 们 的 直肠 中 有 
数 千 种 细菌 。 像 大 肠 杆 菌 这 样 的 细菌 (图 18-3) 已 经 发 展 出 了 按照 梯 
度 游 问 食物 来 源 的 算法 。 由 于 细菌 太 小 ， 在 几 微 米 的 体 长 里 不 能 直接 
仿 测 到 梯度 ， 于 是 束 使 用 了 趋 化 性 ， 这 涉及 周期 性 地 翻 深 并 随机 游 
动 。\ 夺 这 看 起 来 可 能 会 适得其反 ， 但 通过 在 高 浓度 的 地 方 将 游 动 时 间 
延长 ， 细 天 可 以 准确 地 按 该 度 梯度 爬行 。 丘 们 的 智能 是 一 种 原始 窜 
能 ， 但 细菌 比 最 聪明 的 生物 学 家 还 要 聪明 。 这 群 最 聪明 的 生物 学 家 疝 
未 弄 清 楚 细 菌 古 如 何在 如 此 多 样 的 环境 中 生存 的 。 在 多 细胞 动物 中 可 


以 发 现 更 复杂 的 智能 形式 。 


要 这 


- 
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图 18-3 大 肠 杆 菌 的 扫描 电子 显 微 照 片 。 细 菌 是 地 球 上 最 多 样 、 最 健壮 、 最 成 功 的 生命 形式 。 
通过 研究 它们 ， 我 们 可 以 学 到 很 多 关于 自主 智能 的 知识 。 图 片 来 源 : NIAID, NIH ° 
我 们 已 经 看 到 ， 强 化 学 习 的 时 间 差 分 学 习 算 法 可 能 导致 高 度 复 杂 
的 行为 ， 通 过 人 类 大 脑 皮 层 的 深度 学 习 ， 强 化 了 人 类 的 复杂 性 。 目 然 
界 有 一 系列 的 智能 行为 ， 可 以 让 人 工 系 统 从 中 学 习 。 跨 越 计 算 机 科学 
和 生物 学 的 算法 生物 学 是 一 个 新 的 科学 领域 ， 寻 求 使 用 算法 的 语言 
描述 生物 系统 所 使 用 的 问题 解决 策略 。( 沁 我 们 希望 ， 确 定 这 些 生物 算 
法 将 会 启迪 新 的 工程 计算 范式 ， 并 能 让 我 们 对 生物 网 络 有 系统 级 的 理 
解 。 以 上 都 不 是 重点 ， 最 终 的 目标 是 解释 跨 空间 和 时 间 尺 度 的 生物 系 
SP REN RARE: 基因 网络 、 代 谢 网 络 、 免 疫 网 络 、 神 经 网 络 和 社 


交 网 络 一 一 全 部 都 是 网 络 。 


深度 学 习 取 决 于 对 一 个 成 本 函数 的 优化 。 目 然 界 的 成 本 函数 古 什 
AWE? 进化 成 本 的 倒数 被 称 为 适应 度 ， 但 这 是 一 个 概念 ， 只 在 具体 的 
约束 条 件 下 才 有 意义 ， 无 论 约束 条 件 是 来 目 环 境 ， 还 是 来 日 要 被 优化 
的 系统 。 在 大 脑 中 ， 有 一 些 调节 行为 的 固有 成 本 ， 例 如 对 食物 、 瘟 
度 、 安 全 、 氧 气 和 生育 的 需要 。 在 强化 学 习 中 ， 需 要 采取 行动 来 优化 
未 来 的 回报 。 但 除了 保证 生存 的 奖励 之 外 ， 从 人 类 令 人 眼花 综 乱 的 行 
为 中 可 以 看 出 ， 还 有 各 种 各 样 其 他 的 奖励 可 以 被 优化 。 是 不 是 一 些 潜 
在 的 通用 成 本 函数 导致 了 这 种 多 样 性 呢 ? 

我 们 仍 在 寻找 暴露 智能 最 高 形态 秘 密 的 核心 概念 。 我 们 已 经 确定 
了 一 些 关 键 原则 ， 但 是 却 没有 一 个 概念 框架 能 像 DNA 解 释 生命 本 质 那 
样 ， 优 雅 地 解释 大 脑 如 何 运转 。 学 习 算法 是 寻找 统一 概念 的 好 地 方 。 
也 许 ， 我 们 在 理解 深度 学 习 网 络 如 何 解 决 实际 问题 方面 取得 的 进展 ， 
将 引出 更 多 线索 。 我 们 可 能 会 发 现 细胞 和 大 脑 中 使 进化 成 为 可 能 的 操 
作 系 统 。 如 有 果 我 们 能 解决 这 些 问 题 ， 束 可 能 会 有 想象 不 到 的 收获 。 目 
然 可 能 比 我 们 每 一 个 人 都 更 聪明 ， 但 作为 一 个 物种 ， 我 并 不 认为 人 类 
无 法 解决 智能 难题 。 
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附录 一 
致谢 


我 工作 的 索 尔 克 生 物 研 究 所 是 一 个 与 众 不 同 的 地 方 。 从 外 面 看 ， 
ERR MERLE, BEREA RRE, SEIKA 
KAIER PE, PAM es SA ES RL IX REER R E ERTER 
眼前 (图 1) 。( 轧 我 的 实验 室 在 南 楼 ， 位 于 庭院 外 (照片 左 侧 ) 。 你 
在 入 口 处 左边 的 增 上 会 看 到 一 张 电子 显微镜 下 的 海马 体 的 照 请 ， 它 看 
起 来 像 一 副 意 大 利 面 的 横 截 面 ， 入 口 通 向 茶室 ， 那 里 是 计算 机 神经 生 
物 学 实验 室 的 心脏 。 

HAL RRO EMSA, STRAT ee, RE Kas 
生 和 同事 围 着 圆 形 的 白色 茶 桌 讨论 各 种 科学 问题 (图 2) » SSE, A 
室 还 出 现在 了 克 里 克 的 著作 《惊人 的 假说 》 (The Astonishing 
Hypothesis) 中 : 


特 里 . 谢 诺 夫 斯 基 在 索 尔 克 研 究 所 的 团队 ， 在 本 周 的 大 多 数 午 
餐 后 都 会 举行 非 正式 的 茶会 。 这 些 茶会 是 讨论 最 新 实验 结果 ， 抛 出 
新 的 想法 ， 或 只 是 聊 聊 科学 、 政 治 或 新 闻 的 理想 场合 。 有 一 天 我 去 
喝 茶 ， 并 向 帕 特 . 丘 奇 兰 德 和 特 里 . 谢 诺 夫 斯 基 宣 布 ， 我 发 现 意愿 诈 
生 的 位 置 了 ! 它 位 于 或 靠近 前 扣 带 回 。 与 安东尼 奥 . 达 马 西 奥 讨 论 
此 事 时 ， 我 发 现 他 也 有 同样 的 想法 s ©} 


BEN. C 
à fol 


图 1 在 加 州 拉 荷 亚 市 的 索 尔 克 生 物 研究 所 ， 可 以 依 辐 太平洋。 这 座 由 路 易 斯 . 卡 因 设 计 的 标志 
性 建筑 是 一 座 科学 的 圣 惧 ， 也 是 我 每 天 上 班 的 地 方 。 图 片 来 源 ，Kent Schnoeker， 索 尔 克 生 物 
研究 所 。 

我 尤其 记得 ， 克 里 克 在 1989 年 与 比 阿 特 丽 斯 :哥伦布 一 起 哆 条 的 那 
天 。 他 告诉 我 ， 比 阿 竺 丽 斯 想 从事 神 经 网 络 的 研究 工作 ， 我 应 该 雇用 
她 。( 因 比 阿 特 丽 斯 是 加 州 大 学 圣 送 戈 分 校 的 一 名 医学 博士 生 ， 读 研究 
生 的 时 候 曾 与 克 里 克 一 起 短暂 工作 过 一 段 时 间 。 她 曾 想 把 神经 网 络 作 
为 她 的 博士 论文 项 目 ， 但 这 违反 了 生物 系 的 规定 。 我 接受 了 克 里 克 的 
建议 ， 我 们 彼此 都 从 对 方 那里 学 到 了 很 多 。 目 我 们 于 1990 年 在 加 州 理 
TEN Atheneum 23/7 254 T BT DIOE, RK BETA ME) © 
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1981 年 在 托马斯 : 钴 金 斯 生物 物理 系 从 事 的 第 一 份 工作 中 ， 为 我 的 新 实 
验 室 购买 的 第 一 件 家 具 束 是 茶 果 。 该 科 系 束 像 一 个 历史 悠久 的 大 家 
姓 ， 而 我 是 年 轻 的 穹 儿 ， 他 们 让 我 有 信心 在 新 的 方 同 发 展 ， 对 此 我 永 


远 心 存 感激 。 作 为 哈佛 医学 院 神经 生物 学 系 的 博士 后 ， 我 保留 了 下 午 
肥 传 统 。 在 一 个 庞大 而 多 样 的 科 系 里 ， 这 有 是 一 种 让 大 家 保持 联系 并 了 
解 实 验 进 展 的 方法 。 我 在 索 尔 克 全 究 所 的 实验 室 征 一 个 微型 大 学 ， 拥 
有 来 目 科 学 、 数 学 、 工 程 和 医学 等 不 同 专业 背景 的 学 生 ， 下 午 和 茶 时 间 
年 我 们 大 集体 团聚 的 时 间 。 mu 
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图 2 2010 年 索 尔 克 研 究 所 计算 神经 生物 学 实验 室 (CNL) 的 茶室 。 日 常 茶 会 一 直 是 本 书 描述 


的 许多 学 习 算 法 和 科学 发 现 的 社交 孵化 器 。 图 片 来 源 : 索 尔 克 生 物 研究 所 。 

我 很 幸运 。 我 的 父母 很 重视 教育 ， 从 小 就 十 分 信任 我 ; 我 生活 在 
前 所 未 有 的 经 济 增长 和 遍地 机 会 的 时 代 ， 这 开阔 了 我 的 视野 ， 我 的 导 
师 和 合作 者 慷慨 地 分 享 了 他 们 的 见解 和 建议 ;我 有 符 与 一 代 极 其 优秀 
的 学 生 一 起 工作 。 我 特别 感谢 杰 弗 里 .学 顿 、 约 翰 ' 霍 普 菲 尔 德 、 布 鲁 斯 
RA (Bruce Knight) 、 斯 带 芬 . 库 夫 勒 、 迈 克 尔 :斯 带 麦 克 (Michael 
Stimac) 和 约翰 . 惠 勒 (John Wheeler) ， 同 样 也 感谢 我 的 岳父 所 罗 门 : 
哥伦布 ， 他 们 在 我 职业 生涯 的 各 个 转折 点 帮助 我 选择 了 正确 的 方向 。 
比 阿 特 丽 斯 具有 批判 性 思维 ， 我 从 她 那里 学 到 了 如 何 避 免 群 体 思 维 。 


仅仅 因为 每 个 人 都 相信 某 种 解释 ， 并 不 能 证 明 它 束 是 真理 。 有 时 需要 
化 费 整整 一 代 人 的 时 间 ， 才 能 从 群体 中 剔除 一 个 普 般 持 有 的 信念 。 


同时 ， 我 还 要 感谢 在 本 书 的 写作 过 程 中 帮助 过 我 的 其 他 人 。 与 长 
期 合作 者 由 特 里 夏 : 丘 奇 兰 德 和 "科学 网 络 ? 的 创始 人 罗 态 : 宾 汉 姆 
(Roger Bingham) 在 网 上 进行 的 探讨 ， 为 本 书 的 写作 提供 了 灵感 。 约 
翰 : 多 伊 尔 (John Doyle) 对 控制 理论 的 洞 见 启发 了 我 对 大 脑 操 作 系统 
的 讨论 。 与 凯 里 . 施 塔 勒 (Cary Staller) 在 瑞士 克 洛 斯 特 斯 和 达 沃 斯 附 
近 山 上 的 徒步 旅行 ， 帮 我 理 清 了 对 算法 空间 的 理解 。 荡 匡 拉 : 奥 元 利 教 
会 我 如 何 接 触 到 课 稼 以 外 的 受众 。 凯 里 和 芭 芭 拉 都 帮助 我 塑造 了 讲述 
深度 学 习 故 事 的 方式 。 还 有 很 多 人 为 本 书 提供 了 宝 吐 的 反馈 和 建议 ， 
他 们 包括 : Yoshua Bengio, Sydney Brenner, Andrea Chiba, Gary 
Cottrell , Rodney Douglas, Paul Ekman ， Michaela Ennis ， Jerome 


Feldman, Adam Gazzaley , Geoffrey Hinton, Jonathan C. Howard , 
Irwin Jacobs, Scott Kirkpatrick , Mark 和 Jack Knickrehm , Te-Won 
Lee, James McClelland, Saket Navlakha, Barbara Oakley, Tomaso 
Poggio, Charles Rosenberg , David Silver, James Simons, Marian 
Stewart-Bartlett , Richard Sutton , Paula Tallal , Gerald Tesauro , 
Sebastian Thrun, Ajit Varki, Massimo Vergassola, Stephen Wolfram 


(他 也 为 本 书 的 书 名 提供 了 建议 ) ， 以 及 Steven Zucker ° 


自 1984 年 以 来 ,伍兹 霍 尔 计算 神经 科学 人 研讨 会 每 年 夏天 都 会 举行 
一 次 ， 其 中 有 一 小 部 分 核心 成 员 和 新 的 参与 者 在 早上 和 晚上 会 进行 深 
入 讨论 ， 下 午 是 留 给 大 家 做 户外 活动 的 目 由 时 间 一 一 多 么 完美 的 安 
排 。 这 个 人 研讨 会 的 成 员 都 拥有 了 杰出 的 职业 生涯 。 伍 兹 霍 尔 研讨 会 一 
直 持 续 到 今天 ， 但 于 1999 年 转移 a 到 特 柳 赖 德 ， 和 年 度 神经 形态 工程 研 
讨 会 一 起 举办 。 我 感谢 过 去 三 十 年 来 参加 这 些 研 讨 会 的 所 有 人 ， 特 别 
是 John Allman, Dana Ballard, Robert Desimone, John Doyle, Katalin 
Gothard, Christof Koch, John Maunsell, William Newsome, Barry 
Richmond, Michael Stryker, 和 Steven Zucker ° 


我 在 索 尔 克 生 物 研 究 所 和 加 州 大 学 圣迭戈 分 校 的 同事 们 ， 都 是 杰 
出 的 有 创业 和 合作 精神 的 研究 人 员 ， 他 们 正在 创造 生物 医学 科学 的 未 
来 。 加 州 大 学 圣迭戈 分 校 神经 计算 研究 所 的 教师 和 学 生 ， 在 我 1990 年 
创 所 以 来 ， 以 我 从 未 想象 过 的 方式 整合 了 神经 科学 和 计算 。 

索 尔 殉 人 研究 所 的 计算 神经 生物 学 实验 室 在 过 去 的 三 十 年 里 一 直 是 
我 的 家 ， 我 的 许多 学 术 第 子 已 经 离开 ， 在 全 世界 继续 着 攻 动 发 展 的 职 
业 生 涯 。 一 个 实验 室 束 像 一 个 家 庭 ， 几 代 热 情 的 研究 生 和 博士 后 大 大 
丰富 了 我 的 生活 。 我 的 实验 室 管理 员 罗 丝 玛 丽 : 米 勒 (Rosemary 
Miller) 和 玛丽 : 艾 伦 . 修 里 (Mary Ellen Perry) 精心 地 照顾 着 实验 室 。 
玛丽 : 艾 伦 在 过 去 的 十 年 中 一 直 担 任 NIPS 的 董事 总 经 理 ， 李 :坎贝尔 

(Lee Campbell) 开发 了 一 个 计算 机 平台 ， 使 我 们 能 够 将 会 议 规模 扩 
大 十 倍 。 

我 很 感谢 捆 省 理工 学 院 出 版 社 ， 四 十 年 来 它 一 直 是 我 可 靠 的 合作 
伙伴 ， 出 版 了 我 和 托 马 索 : 波 吉 奥 编辑 的 一 套 关 于 计算 神经 科学 的 从 
书 ; 我 于 1989 年 创立 的 期 刊 《神经 计算 》 (Neural Computation) ; 我 
于 1992 年 出 版 的 书 《 计 算 大 脑 》 (The Computational Brain) ; 以 及 其 
他 人 写 的 一 些 关 于 机 器 学 习 的 基础 书籍 ， 比 如 理 查 德 . 萨 顿 和 安德鲁 : 巴 
托 的 《强化 学 习 导 论 》 (Reinforcement Learning: An Introduction) , 
伊 恩 .十 德 费 洛 、 约 书 亚 . 本 吉 奥 和 亚 伦 . 库 维尔 (Aaron Courville) 联合 
撰写 的 该 领域 最 重要 的 教科 书 《 深 度 学 习 》。 硫 省 理工 学 院 出 版 社 的 
罗伯特 : 普 赖 尔 (Robert Prior) 在 本 书 漫长 的 出 版 过 程 中 ， 也 对 本 书 的 
写作 提供 了 指导 。 

我 还 要 感谢 NIPS 社 区 ， 没 有 他 们 ， 我 就 无 法 写 出 这 本 《深度 学 
习 》， 本 书 远 没 有 涵盖 这 个 领域 的 全 面 历史 ， 它 只 关注 了 几 个 主题 和 
参与 神经 网 络 研 究 的 一 些 人 。 国 际 神经 网 络 协会 的 期 刊 《 神 经 网 络 》 
一 直 是 扩大 神经 网 络 研究 苑 围 的 坚强 后 盾 。 该 协会 与 正 EE 合 作 ， 每 年 
举办 一 次 神经 网 络 国际 联合 会 议 。 机 器 学 习 也 众生 了 许多 优秀 的 会 
议 ， 包 括 国际 机 器 学 习 会 议 (ICML) ， 这 是 NIPS 的 姊妹 会 议 。 这 个 


领域 极 大 地 受 圳 于 来 目 所 有 这 些 组 织 ， 以 及 对 其 做 出 贡献 的 研究 人 
Be 

在 2018 年 长 滩 NIPS 的 开幕 式 上 ， 我 对 NIPS 的 发 展 表达 了 人 惊 
IM: “我 在 30 年 前 第 一 次 参加 NIPS 会 议 时 从 来 没有 想到 ， 今 天 会 站 在 
这 里 ， 面 对 着 8000 名 与 会 者 发 表演 讲 一 一 我 当时 以 为 这 个 会 议 只 能 持 
续 10 年 。” 我 于 2016 年 4 月 访问 了 现 居 加 州 山 景 城 (Mountain View) 的 
WEEE o ARAKA” (Google Brain) 团队 占据 了 一 栋 大 楼 的 一 整 
个 楼 层 。 我 和 杰 弗 里 一 起 回顾 过 去 的 日 子 ， 得 出 了 我 们 已 经 电 得 胜利 
的 结论 ， 但 花费 的 时 间 比 我 们 预期 的 要 长 得 多 。 在 这 个 过 程 中 ， 杰 弗 
里 入 选 了 英格兰 和 加 拿 大 旺 家 学 会 。 我 也 被 选 为 美国 国家 科学 院 、 
家 医学 院 、 国 家 工程 院 、 国 家 发 明 家 科学 院 和 国家 艺术 与 科学 学 院 院 
十， 这 些 都 是 难得 的 采 誉 。 我 非常 感谢 术 弗 里 . 溯 顿 多 年 来 和 我 分 享 他 
对 网 络 计算 的 见解 。 

作为 普林斯顿 大 学 的 研究 生 ， 我 曾经 致力 于 研究 爱 因 斯 坦 的 引力 
理论 ， 广 义 相 对 论 中 的 黑洞 和 引力 波 。 然 而 ， 在 获得 我 的 物理 学 博士 
学 位 之 后 ， 我 的 研究 领域 转 癌 了 神经 生物 学 ， 大 脑 目 那 时 起 就 引起 了 
我 的 兴趣 。 我 还 不 知道 我 的 第 三 次 转变 可 能 是 什么 。 所罗门 .哥伦布 曾 
经 告诉 我 ， 所 谓 事 业 ， 只 能 用 来 追溯 ， 我 在 写 这 本 书 时 也 确认 了 这 一 
点 。 回 顾 过 去 ， 我 发 现 了 那些 让 我 走 到 今天 这 一 步 的 事件 和 决定 ， 当 
然 ， 当 时 的 我 对 这 一 切 还 一 无 所 知 。 


1. % M] Sarah Williams Goldhagen, Louis Kahn’s Situated Modernism(New Haven: Yale 
University Press, 2001) ° 


2. Francis Crick, The Astonishing Hypothesis: The Scientific Search for the Soul. (New 
York: Scribner’s Sons, 1994), 267. 


3. 在 我 和 比 阿 特 丽 斯 相识 这 件 事 上 ， 死 里 区 同样 功 不 可 没 。 


Bae — 
词汇 表 


自 适 应 信和 号 处 理 (adaptive signal processing) : 提高 信号 质量 的 
方法 ， 例 如 目 动 粒度 控制 ， 或 可 目 动 降低 噪声 的 可 调节 滤波 右 。 

算法 (algorithm) : 一 个 列 出 了 具体 操作 步骤 的 说 明 ， 你 可 以 按 
ROR Ap, BBO RR Se Te BE os E e 

Re (或 误差 反 向 传播 ) [ backprop ( backpropagation of 
errors) | : 通过 梯度 下 降 来 优化 神经 网 络 的 学 习 算 法 ， 以 最 小 化 代 
价 函 数 的 值 并 提高 网 络 性 能 。 

贝 叶 斯 规则 (Bayes'srule) : 基于 新 数据 和 与 事件 相关 条 件 的 先 
验 知 识 ， 对 事件 概率 进行 更 新 的 规则 。 更 一 般 地 说 ， 贝 叶 斯 概率 是 对 
当前 和 先 验 数据 产生 结果 的 信念 。 


玻 尔 效 曼 机 (Boltzmann machine) : 一 种 神经 网 络 模型 ， 由 相互 
作用 的 二 进 制 单元 组 成 ， 其 中 单元 处 于 活跃 状态 的 概率 取决 于 其 整合 
的 突 触 输入 。 该 模型 以 19 世 纪 物 理学 家 路 德 维 希 : 玻 尔 兹 曼 命 名 ， 他 是 
Git AAW BEA e 


约束 条 件 (constraints) : 让 最 优化 问题 的 解决 方案 必须 满足 的 
保证 其 值 为 正 的 条 件 。 

ÆFA (convolution) : 通过 计算 一 个 函数 与 另 一 个 函数 相对 移 位 
的 重 登 量 ， 将 两 个 函数 进行 宴 合 。 


代价 画 数 (cost function) : 用 来 指定 网 络 目的 并 衡量 其 性 能 表现 
的 函数 。 学 习 算 法 的 目的 是 降低 代价 函数 的 值 。 

数字 助理 (digital assistant) : 用 以 辅助 完成 任务 的 虚拟 助理 ， 
比如 亚马逊 智能 音箱 Echo 中 的 语音 助理 Alexa。 


周期 (epoch) : 学 习 过 程 中 ， 从 指定 数量 的 样本 中 计算 出 平均 梯 
度 后 神经 网 络 中 权重 的 更 新 。 

平衡 (equilibrium) : 热力 学 状态 ， 其 中 没有 物质 或 能 量 的 净 宏 
观 流动 。 在 玻 尔 兹 曼 机 中 ， 神 经 单元 状态 是 概率 性 的 ， 当 输入 保持 不 
变 时 ， 系 统 会 最 终 稳 定 在 平衡 状态 。 

反馈 (feedback) : 神经 网 络 中 由 高 /后 层 流向 低 /前 层 神经 元 的 连 
接 ， 这 种 连接 使 信号 在 网 络 中 形成 了 环流 。 


前 馈 网 络 (feedforward network) : 一 种 多 层 神经 元 网 络 ， 其 中 
各 层 神 经 元 之 间 的 连接 是 单 加 的， 从 输入 层 开 始 ， 到 输出 层 结 束 。 

梯度 下 降 (gradient descent) : 一 种 以 降低 代价 画 数 为 目的 的 优 
化 方法 ， 在 每 个 周期 中 都 会 对 参数 进行 调整 ， 代 价 函 数 用 来 衡量 网 络 
模型 的 性 能 。 

fe ELVIS 7E (Hopfield net) : BAR EE SEI RA BHB RE 
接 神 经 网 络 模型 ， 根 据 不 同 的 输入 状态 ， 该 模型 都 能 保证 收敛 成 固定 
的 吸引 子 形态 ， 可 以 用 来 存储 和 提取 信息 。 对 该 网 络 进行 过 探讨 的 文 
章 有 上 千 篇 。 


学 习 算 法 (learning algorithm) : 基于 样本 来 调整 画 数 参数 的 算 
法 。 同 时 提供 了 输入 和 目标 输出 样本 的 是 监督 算法 ， 仅 提供 输入 样本 
的 是 无 监督 算法 。 强 化 学 习 是 监督 学 习 算法 的 一 种 ， 仅 对 好 的 表现 进 
行 奖励 。 

逻辑 (logic) : 基于 结果 仅 为 真 或 假 的 假设 的 数学 推断 。 数 学 家 
用 逻辑 来 证 明定 理 。 


机 器 学 习 (machine learning) : 计算 机 科学 的 一 个 分 文学 科 ， 让 
计算 机 从 数据 中 学 习 如 何 完成 任务 ， 而 不 对 其 提供 明确 的 程序 设 定 。 


毫秒 (millisecond) : 一 秒 的 千 分 之 一 〈0.001 秒 ) ， 即 一 千 赫 效 
音调 的 一 个 周期 。 


大 规模 开放 式 在 线 课 程 ( massive open online course ， 
MOOC) : 互联 网 上 各 色 主 题 的 免费 课程 。 第 一 门 MOOC 诞 生 于 2006 
年 ， 到 2018 年 1 月 ， 网 上 大 约 有 9400 门 不 同 的 MOOC， 拥 有 约 9100 万 学 
ZEE 

神经 元 (neuron) : 一 种 特异 化 的 大 脑 细胞 ， 整 合 其 他 神经 元 的 
输出 作为 输入 ， 并 将 输出 信号 传递 给 其 他 神经 元 。 

归 一 化 (normalization) : 将 信号 的 振幅 稳定 在 固定 范围 内 。 一 
种 将 随时 间 变 化 的 正 值 信号 进行 标准 化 的 方式 ， 即 用 该 信号 除 以 其 自 
号 的 最 大 值 ， 使 归 一 化 的 信号 被 限定 在 0 和 1 之 间 。 

优化 (optimization) : 从 提供 的 输入 集合 中 系统 地 选取 输入 值 的 
过 程 ， 以 找到 函数 的 最 大 或 最 小 输出 值 。 


过 度 拟 合 (overfitting) : 当 一 个 网 络 模型 中 可 调整 参数 的 数量 远 
大 于 训练 数据 的 数量 ， 并 且 该 算法 使 用 了 过 多 参数 来 匹配 这 些 样本 
时 ， 经 过 训练 的 学 习 算 法 所 达到 的 状态 。 虽 然 过 度 拟 合 大 大 降低 了 网 
络 适应 新 样本 的 能 力 ， 但 可 以 通过 正则 化 来 降低 这 种 负面 影响 。 

感知 器 (perceptron) : 一 个 简单 的 神经 网 络 模 型 ， 由 一 个 神经 
元 和 一 系列 带 有 可 变 权 重 的 输入 组 成 ， 可 以 通过 训练 来 对 输入 进行 分 
类 o 


可 塑性 (plasticity) : 神经 元 对 其 功能 的 改变 ， 如 连接 强度 的 改 
as («suf oy XSUEU) ， 或 对 其 输入 的 响应 上 “本 征 可 塑性 ” (intrinsic 
plasticity) | 。 


概率 分 布 (probability distribution) : 指定 了 实验 中 系统 或 结 
的 所 有 可 能 状态 发 生 的 概率 的 函数 。 

循环 网 络 (recurrent network) : 拥有 反馈 连接 ， 人 允许 信号 在 其 
中 循环 流动 的 神经 网 络 。 


正则 化 (regularization) : 在 训练 数据 有 限 的 情况 下 ， 防 止 具有 
许多 参数 的 网 络 模型 发 生 过 度 拟 合 的 方法 。 例 如 权重 豪 减 ， 即 网 络 中 
所 有 的 权 值 在 训练 的 每 个 周期 都 会 减 小 ， 只 有 具有 较 大 正 梯度 的 权 值 
被 保留 。 

缩放 性 (scaling) : 对 算法 的 复杂 程度 如 何 随 着 问题 的 大 小 而 变 
化 的 判断 标准 。 例 如 ，n 个 数 相 加 的 复杂 度 缩放 性 为 n， 但 是 n 个 数 所 有 
两 数 配对 相 乘 的 复杂 度 缩放 性 为 mn 。 


ABT) (skunk works) : 一 个 小 组 在 某 个 组 织 内 以 高 度 自 治 的 
方式 从 事 高 级 别 或 秘密 项 目 。 借 鉴 了 漫画 作品 《从 林 小 子 》 (LI 
Abner) 中 月 光 工 厂 的 名 称 。 


稀疏 原理 (sparsity principle) : 对 信号 的 稀疏 表征 ， 如 脑 电 图 
(EEG) 和 功能 位 共振 成 像 (fMRI) ， 用 少量 固定 基 函 数 的 加 权 和 来 
近似 信号 。 这 些 基 画 数 在 独立 分 量 分 析 (independent component 
analysis) 中 被 称 为 信 源 。 在 一 组 神经 元 中 ， 对 一 个 输入 的 稀 下 表 征 是 
指 只 有 少数 神经 元 高 度 活 跃 的 情况 。 这 可 以 减少 来 目 表 示 其 他 输入 的 
活动 模式 的 干扰 。 

HRPE (spine) : 神经 元 树 突 上 的 刺 来 状 膜 突 ， 充 当 突 触 的 突 触 
后 部 位 。 

突 触 (synapse) : 两 个 神经 元 之 间 的 特异 化 连接 部 位 ， 信 号 从 突 
触 前 神经 元 传递 到 突 触 后 神经 元 。 


训练 和 测试 集 (training and test sets) : 基于 训练 集 的 表现 并 不 
能 很 好 地 评估 神经 网 络 在 新 输入 上 执行 的 效果 ， 但 训练 期 间 未 使 用 的 


测试 集 则 可 以 对 网 络 性 能 进行 评估 。 当 数据 集合 很 小 时 ， 可 以 使 用 训 
练 集 之 外 的 单个 样本 ， 对 使 用 其 余 样 本 进行 训练 的 网 络 进行 性 能 测 
试 ， 并 且 对 每 个 样本 重复 该 过 程 以 获得 平均 测试 性 能 。 这 是 n=1 时 的 
交叉 验证 的 特例 ， 其 中 n 个 子 样本 被 保留 作为 测试 集 而 非 训练 集 。 

图 灵机 (Turing machine) : 由 阿兰 :图 灵 于 1937 年 发 明 的 一 种 假 
想 的 ， 可 以 用 来 做 数学 计算 的 简单 计算 机 模型 。 图 灵机 包括 一 个 可 以 
前 后 移动 的 “ 磁 帝 ”， 磁 带 被 划分 为 一 个 搂 一 个 的 单元 ， 一 个 具有 “ 状 
态 ” 的 “磁头 ”， 可 以 改变 其 下 活动 单元 的 属性 ， 以 及 一 套 关 于 磁头 如 何 
修改 活动 单元 格 并 移动 磁带 的 指令 。 在 每 个 步 又 中 ， 机 妖 可 以 修改 活 
动 单元 格 的 属性 并 更 改 人 磁头 的 状态 ， 之 后 再 将 磁 囊 移动 一 个 单元 。 


